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(54) Sequences de nucleotides de HIV-2 

(57) L'invention concerns une sequence de nucleo- 
tides caracterisee en ce qu'elle repond a la sequence 
nucleotidique representee a la figure 1B ou a la figure 
1C, ou en ce qu'elle contient la sequence nucleotidique 
representee a la figure 1B ou a la figure 1C t ou en ce 
qu'il s'agit d'une partie de la sequence representee a la 



figure 1B ou a la figure 1C, ladite partie de sequence 
codant pour un peptide reconnu par des anticorps pre- 
sents dans le serum d'un patient infecte par un retrovi- 
rus HIV-2 ou etant utilisable comme sonde pour la de- 
tection dans un echantillon biologique, de la presence 
d'un retrovirus HIV-2. 
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Description 

La pr6sente invention est relative a des peptides ayant des propria 6s immunologiques, !e cas 6cheant immuno- 
genes, en commun avec des antigenes susceptibles d'etre obtenus sous une forme purifiee, a partir de virus capables 
5 de provoquer des iymphadenopathies susceptibles d'Stre relay6es ensuite par le symdrdme d'immunod6ficience ac- 
quise (SI DA) chez I'homme. 

L'invention concerne en parttculier des peptides antigeniques susceptibles d'etre reconnus par des anticorps in- 
duits chez rhomme par des virus designes par I'abreviation HIV, selon la nomenclature definie dans NATURE. Elle 
concerne egalement des peptides ayant des proprietes immunogenes ou susceptibles d'etre rendus immunogenes jn 
10 vivo , cette immunogenic^ etant susceptible de se manifester par I'induction jn vivo d'anticorps reconnaissant des 
antigenes caracteristiques des virus HIV-2 et m§me : au moins en ce qui concerne certains de ces peptides, des anti- 
genes issus de HIV-1. 

L'invention concerne en outre des applications de ces peptides a la fabrication de compositions pour le diagnostic 
iH v'tro chez I'homme de potentiality de certaines formes du SI DA et, en ce qui concerne certains d'entre eux, a la 
is production de compositions immunogenes et de compositions vaccinantes contre les retrovirus HIV. 

De meme l'invention concerne les applications aux memes fins des anticorps susceptibles d'etre induits in vivo 
par les peptides immunogenes ou rendus immunogenes et, pour certains de ces anticorps, leurs applications a la 
production de principes actifs de medicaments contre ces SI DAS humains. 

L'invention concerne egalement la mise en oeuvre de certains de ces peptides dans des proc6d6s pour le dia- 
20 gnostic jn vitro chez I'homme de certaines formes du SI DA, ainsi que leur application a la constitution de trousses ou 
"kits" de diagnostic. 

Un premier retrovirus denomme LAV-1 ou HIV-1 a ete isole et decrit dans la demande de brevet GB.83/24.800 et 
une demande EP.84/401 .834 du 14/09/84. Ce virus a egalement ete decrit par RBarre Sinoussi et al. dans Science, 
220 n° 45-99, 20 pages 868-871 . 
25 Des variants de ce virus HIV-1 d6sign6s par LAV ELI et LAV MAL, ont egalement 6t6 isoles, caracterises et decrits 

dans la demande de brevet EP.84/-401 .834. 

Les virus HIV-1 et leurs variants possedent les proprietes suivantes : 

- ils ont pour cibles preterencielles les cellules Leu3 (ou lymphocytes T4) humaines et leurs cellules derivees u im- 
30 mortalisees". 

ils ont une activity transcriptase inverse necessitant la presence d'ions Mg 2 * et presentent une forte activite pour 
le poly(adenylate-oligo-deoxythymidylase) po!y(A)-oligo(dT)12-18) 
ils ont une densite de 1 ,1 6 a 1 , 1 7 sur gradient de sucrose, 

ils ont un diametre moyen de 1 39 nanometres et un noyau de diametre moyen de 41 nanometres, 
35 - les lysats de ces virus contiennent une proteine p25 (proteine du noyau) qui ne croise pas immunologiquement 
avec la proteine p24 de HTLV-1 , 

ils contiennent une proteine p42 appartenant a leur enveloppe, 

ils contiennent egalement une glycoproteine d'enveloppe gp110 d'un poids moleculaire de 110.000. 

40 L'isolement et la caracterisation de retrovirus appartenant a une classe distincte et n'ayant qu'une parente immu- 

nologique r6duite avec les precedents, ont 6X6 decrits dans la demande de brevet europ6en n° 87/400.151.4. Ces 
retrovirus qui ont ete regroupes sous la designation HIV-2, ont ete isoles chez plusieurs malades africains presentant 
des symptGmes d'une lymphad6nopathie ou d'un SI DA. 

Les retrovirus du type HIV-2 comme les retrovirus du type HIV-1, se caract6risent par un tropisme pour les lym- 
45 phocytes T4 humains et par un effet cytopathogene a regard de ces lymphocytes, lorsqu'ils s'y multiplient, pour alors 
causer sort des poly-ad6nopathies generalisees et persistantes, soit un SI DA. 

Plus genSralement les retrovirus purifies par HIV-2 possedent en genera! les proprietes suivantes : 

ia cible preferentielle des retrovirus HIV-2 est constituee par les cellules Leu3 (ou lymphocytes T4) humaines et 
so pour des cellules "immortal is6es" derivees de ces lymphocytes T4 ; 

ils sont cytotoxiques pour les lymphocytes T4 humains 

ils ont une activite de transcriptase inverse necessitant la presence d'ions Mg 2 * et presentant une forte activite 
pour le poly(ad6nylate-oligodeoxythylmidylase) (poly(A)-oligo(dT) 12-18) ; 
ils ont une densite de 1,16 dans un gradient de sucrose ; 
55 - ils ont un diametre moyen de 1 40 nanometres et un noyau ayant un diametre moyen de 41 nanometres ; 
ils peuvent etre cultives dans des lignees permanentes du type HUT ou exprimant la proteine T4 ; 

- ils ne sont pas infectieux pour les lymphocytes T8 ; 

les lysats de ces virus contiennent une proteine p26 qui ne croise pas immunologiquement avec la proteine p24 
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du virus HTLV-I ou du virus HTLV-II ; 

ces lysats contiennent en outre une proteine p16 qui n'est pas reconnue immunologiquement par la proteine p1 9 
de HTLV-I ou de HTLV-II dans des essais de radioimmuno-precipitation ; 

ils contiennent en outre une glycoproteins d'enveloppe ayant un poids moleculaire de I'ordre de 1 30.000-1 40.000 
5 qui ne croise pas immunologiquement avec la gp11 0 des HI V-1 , mais qui en revanche croise immunologiquement 

avec la glycoproteine d'enveloppe gp140 de STLV-III (virus isold chez le singe) ; 

ces lysats contiennent encore des antigenes marquables par la 35 S-cysteine, dont les poids moleculaires s'etagent 
entre 32.000 et 42.000-45.000 : ils comprennent notamment un antigene ayant un poids moleculaire de I'ordre de 
36.000 et un antigene ayant un poids moleculaire de I'ordre de 42.000, Tun de ces antigenes (p36 et p42) cons- 
io tituant vraisemblablement une glycoproteine transmembranaire du virus HI V-2 : 

TARN genomique des HI V-2 n'hybride pas avec TARN genomique de HI V-1 dans des conditions stringentes ; 
dans des conditions non stringentes, I'ARN genomique de HI V-2 n'hybride, ni avec le gene eny et le LTR qui le 
jouxte, de HI V-1, ni avec des sequences de la region jgpj du genome de HI V-1 ; 

dans des conditions non stringentes, il hybride faiblement avec des sequences de nucleotides de la region de 
15 HI V-1. 

Un autre retrovirus denomme SI V-1 , cette denomination remplacant la denomination anterieurement connue STLV 
III, a et6 isole chez le singe macaque rhesus. (M.D.Daniel et al. Science 228, 1201 (1985) N.LLetwin et al, Science 
230, 71 (1985) sous I'appellation "STLV-III mac"). 
20 un autre retrovirus, design^ "STLV-III AGM ", (ou SIV AGM ) a ete isole chez des singes verts sauvages. Mais, con- 

trairement au virus present chez le singe macaque rhesus, la presence de B 3TLv-iii AGM " ne semble pas induirc une 
maladie du type SI DA chez le singe vert d'Afrique. 

Une souche du retrovirus SI V-1 mac a ete d6pos6e a la CNCM le 7 F6vrier 1986 sous le n° 1-521 . Des etudes ont 
montre que le retrovirus SI V-1 comporte certaines proteines possedant une certaine parente immunologiqueavec des 
2S proteines ou glycoproteines structurales susceptibles d'etre obtenues dans des conditions analogues, a partir de HI V- 
2. Ce retrovirus SI V-1 . dont on a constate le caractere infectieux chez les singes, avait ete designs par STLVIII par les 
chercheurs qui I'ont isole (references bibiiographiques precitees). 

Pour la commodite du langage, ces virus ne seront plus d6sign6s dans ce qui suit que par I'expression SIV (I'ex- 
pression SIV est I'abreviation anglaise de "Simian Immunodeficiency Virus" (virus d'immunodeficience du singe)) even- 
30 tuellement suivi d'une abr6viation d6signant I'espece de singe dont ils sont issus, par exemple, MAC (ou mac) pour le 
macaque ou AGM pour le singe vert d'Afrique (abreviation de "African Green Monkey"). 

En mettant en oeuvre les memes techniques que celles rappel6es plus haut, il a 6t6 constate que Ton pouvait 
egalement obtenir a partir de SI V-1 mac : 

3S - une proteine principale du noyau p27, ayant un poids moleculaire de I'ordre de 27 kilodaltons, 
une glycoproteine majeure d'enveloppe, gp140. 

une proteine vraisemblablement transmembranaire p32, qui n'est guere observee en RIPA lorsque le virus a au 
prealable ete marque par la 35 S-cysteine ; mais qui peut etre observes dans les essais d'immunoempreintes (Wes- 
tern blots), sous torme de bandes larges. 

40 

Des etudes plus precises ont 6t6 r6alisees en ce qui conceme les precedents virus HIV-2 et SIV. La poursuite de 
I'etude des retrovirus HIV-2 a egalement conduit a I'obtention de sequences d'ADN complementaires (ADNc) des ARNs 
de leurs genomes. La sequence nucleotidique complete de I'ADNc d'un retrovirus representatif de la classe HIV-2 
(HIV-2 ROD) a ete deposee le 21/02/-1986 a la CNCM sous le n° I-522, sous le nom de reference LAV-II ROD). 

^5 Cette sequence nucleotidique et les phases de lecture ouverte qu'elle contient sont indiqu6s a la figure 1 A. 

En outre, la poursuite de I'etude d'autres retrovirus a egalement penmis d'aboutir a I'obtention de leurs sequences 
nucieotidiques completes. II en est en particulier ainsi de I'ADNc derive de I'ARN genomique de SIV 

Le clonage et le sequencage du virus SIV-1mac qui ont permis I'obtention de sa sequence nucleotidique ont ete 
realises dans les conditions suivantes : 

so L'ADN de cellules HUT 78 infectees par le virus SIV (isolat STLV-III mac 142-83 d6crit par Daniel et al.(1985) 

Science, 228, p. 1201 -1204, dig6re partiellement par I'enzyme de restriction Sau3A a et6 clone au site BamHI du 
bacteriophage vecteur Lambda ELBL3 pour constituer une banque genomique. Les 2 millions de phages recombinants 
de la banque genomique ainsi constituee ont ete cribies in situ en conditions de s6curit6 P3, a I'aide de sequences du 
virus HIV2 provenant des clones lambda-ROD4, lambda- ROD35 et E2 (Clavel et al. (1 986-Nature, 324, p. 691 .) et nick- 

55 translatees. 

L'hybridation a ete realisee en 5xSSC a 50°C et les lavages en 2xSSC a 5°C. Un seul clone contenant I'ensemble 
des sequences virales a 6t6 obtenu. Ce clone est designe par lambda-SI V-1 . L'inserat du phage lambda-SI V-1 mesure 
1 6,5 kb au total et comprend un provirus integre auquel manquent seulement les 250 premieres bases du LTR gauche, 
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alors que le LTR droit est complet. 

Le provirus Integra a ete sequence par la methode des dideoxynucleotides apr6s sous-clonage de fragments 
aleatoires dans le phage Ml3mp8. 300 sous-clones ont ete analyses. 

Des fragments d'ADNc provenant du clone Lambda SIV-1 insures dans des plasmides pSIV-1.1 et pSIV-1.2 ont 
5 ete deposes a la CNCM le 15 Avril 1987, sous les numeros I-658 (pSIV-1 .1 ) et I-659 (pSIV-1 .2). 

Les resuftats ont ete mentionnes dans les figures decrites ci-apres. 

La figure 1 B represente la sequence nucleotidique du genome viral de SI V et les sequences qui en sont deduites 
pour les prolines viralescorrespondant aux produits des genes gag, pol, env, Q, X, R, tat, art, F. 

Les figures 3 a 11 et la figure 1C represented les comparaisons des produits theoriques des genes viraux et des 
10 LTR entre HI V2 et SIVmac. (XSIV-1 ). 

L'invention concerne de plus les fragments d'ADNc deduits de I'ADNc issu du genome entier de SIV-1, ces frag- 
ments contenant une ou plusieurs sequences issues de ia sequence complete d'ADNc et qui codent pour des peptides 
interessants de l'invention. Ces sequences sont indiquees a la figure 1B et, a la figure 1C pour ce qui a trait a la 
sequence LTR du virus, 

is Les sequences nucteiques de I'ADNc de SIV ont ete placets en correspondance avec les sequences nucleiques 

du virus HIV-2 ROD pour ce qui concerne la sequence LTR (figure 1C). Cette presentation que Ton retrouve pour le 
genome entier en rapprochant la figure 1B des figures 3 a 11 permet de reperer ou de deduire les acides nucleiques 
ayant des elements de structure essentiels communs aux deux virus. 

L'invention concerne naturellement aussi I' utilisation des cADNs issus de SIV ou de leurs fragments (ou de re- 

20 ccmbinants !es contenant) en tant que sondes, pour le diagnostic de la presence ou non de virus HIV-2 dans des 
echantilions de serums ou d'autres liquides ou tissus biologiques obtenus a partir de patients suspectes d'etre pcrteurs 
du virus HIV-2. Ces sondes sont de preference marquees egalement (marqueurs radio-actifs, enzymatiques, fluores- 
cents, etc.). Des sondes particulierement interessantes pour la mise en oeuvre du proc6d6 de diagnostic du virus HIV- 
2 ou d'un variant de HIV-2 peuvent etre caracterisees en ce qu'elles comprennent la total ite ou une fraction de I'ADNc 

25 complementaire du genome du virus SIV ou encore notamment les fragments recombinants contenus dans divers 
clones. 

Les sondes mises en oeuvre dans ce precede de diagnostic du virus HIV-2 et dans les kits de diagnostic ne sont 
en aucune facon reduites aux sondes decrites precedemment. Elles comprennent au contraire toutes les sequences 
nucI6otidiques issues du genome du virus SIV, d'un variant de SIV ou d'un virus proche par sa structure, des lors 

30 qu'elles permettent la detection dans des fluides biologiques de personnes susceptibles de developper un SI DA, d'an- 
ticorps diriges contre un HIV-2 ou d'un virus qui en est proche. 

La detection peut §tre realisee de toutes f aeons en soi connues. Ell© peut comprendre une mise en contact de 
ces sondes soit avec les acides nucleiques obtenus a partir des cellules contenues dans ces serums ou autres milieux 
biologiques, par exemple liquides cephalo-rachidiens, salives, etc... Elle peut aussi comprendre une mise en contact 

35 de ces sondes avec ces milieux eux-memes des lors que leurs acides nucleiques ont ete rendus accessibles a I'hy- 
bridation avec ces sondes, et ce dans des conditions permettant I'hybridation entre ces sondes et ces acides nuclei- 
ques. L'etape finale du diagnostic jn vitro comprend alors la detection de I'hybridation eventuellement produite. Le 
susdit diagnostic mettant en jeu des reactions d'hybridation peut egalement etre realise a I'aide de melanges de sondes 
respectivement originaires d'un HIV-2 et d'un SIV-1 ou d'un HIV-1, d'un HIV-2 et d'un SIV, des lors qu'il n'est pas 

40 necessaire de faire une difference entre le type de virus recherche. 

D'une facon gen6rale, le proceed de diagnostic de la presence ou non du virus HIV-2 ou d'un variant dans des 
echantilions de serums ou d'autres liquides ou tissus obtenus a partir de patients suspectes d'etre porteurs du virus 
HIV-2 comprend les etapes suivantes : 

^5 1/ au moins une etape d'hybridation conduite dans des conditions stringentes, par mise en contact de I'ADN de 

cellules de I'echantillon du patient suspect avec I'une des susdites sondes marquees sur une membrane appro- 
priee, 

21 le lavage de ladite membrane avec une solution assurant la conservation de ces conditions stringentes de 
I'hybridation, 

50 3/ la detection de la presence ou non du virus HIV-2 par une methode ^immunodetection. 

Dans un autre mode de realisation pretere du proc6de selon l'invention I'hybridation precitee est conduite dans 
des conditions non stringentes et le lavage de la membrane est realise dans des conditions adaptees a celles de 
I'hybridation. 

55 || va de soi que l'invention concerne les acides nucleiques correspondant a des sequences placdes en des regions 

analogues de variants de SIV ainsi que tous les acides nucleiques dont les modifications resulteraient de la mise a 
profit de la degenerescence du code genetique. 

Les etudes comparatives qui ont aussi permis d'aboutir a des resultats relatifs aux proteines de noyau (core), ci- 
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apres denommees "proteines (jag" et aux proteines d'enveloppes, ci-apres denommees "proteines env", ont 6galement 
6X6 rapportes dans !a demande do brevet europeen n° 87/400.151.4, deja citee. Ces resultats montrent que les pro- 
teines du noyau (prot6ines gag) dans HIV-2 presentent des differences moins accentuees par rapport a celles des 
virus HI V-1 , que les prolines d'enveloppe (protamines env). Globalement les proteines eny dans HIV-2 se sont revelSes 
5 presenter des parentes immunologiques extremement faibles, sinon inexistentes, avec les proteines env correspon- 
dantes des virus HIV-1 . 

Au contraire des etudes comparatives effectuees entre les structures des sequences d'ADNc des virus HIV-2 et 
SIV permettent de mettre en evidence certaines caracteristiques communes qui apparaissent au niveau des proteines. 

Globalement, les proteines de HIV-2 et de SI V-1 montrent des parentes immunologiques importantes. 
to La glycoproteine majeure d'enveloppe de HIV-2 s'est revelee etre plus proche immunologiquement de la glyco- 

proteine majeure d'enveloppe de SIV que de la glycoproteine majeure d'enveloppe de HIV-1 . 

Ces constatations s'imposent non seulement au niveau des poids moleculaires : 130-140 kilodaltons pour les 
glycoproteines majeures de HIV-2 et de SIV contre environ 110 pour la glycoproteine majeure d'enveloppe de HIV-1 . 
mais aussi au niveau des proprietes immunologiques, puisque des scrums preleves a partir de malades infectes par 
is HIV-2, et plus particulierement des anticorps formes contre la gp140 de HIV-2 reconnaissent la gp140 de SI V-1 mac, 
alors que dans des essais semblables les memes scrums et les memes anticorps de HIV-2 ne reconnaissent pas la 
gp1 1 0 de HIV-1 . Mais les se>ums anti-HI V-1 qui n'ont jamais reagi avec la gp140 de HIV-2 precipitent une proteine de 
26 Kdal marquee par la 35 S-cysteine : contenue dans les extraits de HIV-2. 



La proteine majeure du noyau (core) de HIV-2 semble presenter un poids moteculaire moyen (environ 26.000) 



20 intermedial re entre celui de la p25 de HI V-1 et !a p27 de SIV 

Ces observations resultent des essais realises avec des extraits viraux oblenus a partir du HIV-2 isc!£ a partir de 
I'un des patients susmentionnes. Des resultats similaires ont ete obtenus avec des extraits viraux du HIV-2 isole a 
partir du second patient. 



Des etudes plus poussees ont conduit les inventeurs a reconnaitre une premiere ciasse de peptides ayant des 



2S sequences d'aminoacides soit identiques, soit proches de sequences contenues a I'interieur des structures des pro- 
teines <aag et eny de HIV-2 ou de SIV voire de HIV-1. Ces peptides sont notamment applicables au diagnostic d'une 
infection chez Phomme par le virus HIV-2 ou de I'un de ses variants. 

A cet egard la presente invention conceme 6galement des proc6des et des compositions de diagnostic pour la 
detection in vitro d'anticorps diriges contre un virus HIV-2 ou deses variants, plus particulierement dans des echantillons 

30 biologiques, notamment des serums de patients ayant subi une infection par le virus HIV-2, certains de ces peptides 
permettant une discrimination particulierement poussee entre les infections dues a des virus HIV-2 et a des virus HIV-1 . 

Ces etudes poussees ont ggalement conduit a la possibility de synthetiser des peptides immunogenes ou sus- 
ceptibles d'etre rendus immunogenes, presentant des caracteristiques de structures leur permettant d'induire in vivo 
la production d'anticorps susceptibles de reconnaitre des proteines eny a la fois dans HIV-1 et dans HIV-2 et, au moins 

35 pour certains de ces peptides, de se fixer tant sur des virus HIV-1 que sur des virus HIV-2, plus particulierement aux 
fins de les neutraliser. L'utilisation de ces derniers types de peptides est done particulierement indiquee pour la pro- 
duction de principes actifs de vaccins contre les virus HIV, done contre le SI DA. 

Pour designer ci-apres les residus d'aminoacides entrant dans la constitution des peptides selon Pinvention, on 
aura recours, pour ceux des acides amines ayant une signification univoque a la nomenclature internationale d6signant 

40 chaque acide amine naturel par une lettre unique (lettre majuscule) selon le tableau des correspondances qui suit : 



55 



45 



SO 



M Methionine 
L Leucine 
I Isoleucine 

V valine 

F Phenylalanine 
S Serine 
P Proline 
T Threonine 
A Alanine 

Y Tyrosine 
H Histidine 
Q Glutamine 
N Asparagine 
K Lysine 

D Acide Aspartique 
E Acide glutaminique 
C Cysteine 
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W Tryptophane 
R Arginine 
G Glycine 

5 Lorsqu'un acide amine pourra, en raison de sa posit 'ton au sein de la chalne d'aminoacides caracteristique d'un 

peptide determine, prendre plusieurs significations, il pourra soit dtre design6 par un tiret si sa signification peut 
etre quelconque, soit par une lettre minuscule lorsque cet aminoacide pourra presenter un nombre limits de significa- 
tions prefer6es, ce nombre Stant cependant toujours superieur a 1. Dans ce dernier cas, les significations possibles 
de cette lettre minuscule seront toujours precisees en rapport avec le peptide auquel il appartient. 

10 Afin de faciiiter la lecture, ces peptides seront designes par une abreviation env ou cjag suivie d'un indice nume- 

rique, par reference a des sequences d'aminoacides contenues, selon ie cas, soit dans les proteines env soit dans Iss 
proteines cjag de certains HI V-1 , HI V-2 ou SI V. II y sera encore fart reference dans ce qui suit. 
Enfin dans les definitions qui suivent 

is - les groupes X represented soit un groups NH 2 libre ou amide, notamment par un ou deux groupes atcoyle com- 
prenant de 1 a 5 atomes de carbone, soit un groupe peptidique comprenant de 1 a 5 aminoacides, dont Paminoacide 
N-terminal presente lui-meme un groupe NH 2 libre ou amide comme precedemment indique, et 
les groupes Z represented, soit un groupe -OH libre ou alcoxyle et contenant alors un groupe alcoyle comprenant 
de 1 a 5 atomes de carbone, soit un groupe peptidique comprenant de 1 a 5 aminoacides, dont Paminoacide C- 

20 terminal presente lui-mdme un groupe -OH libre ou alcoxyle, comme precedemment indique, les groupes de 1 a 

5 acides amines le cas echeant contenus dans X ou Z ou dans les deux a ia fois Slant tels, que !eur presence 
n'est pas incompatible avec la preservation pour I'essentiel des proprietes immunologiques, le cas echeant im- 
munogenes, des peptides qui en sont depourvus. 

25 Les peptides selon I'invention, qui ont en commun des proprtetes immunologiques avec des antigenes de HIV-2 

et, pour certains d'entre eux egalement avec des antigenes de HI V-1 ou de ses variants, sont caracterises en ce qu'ils 
ont 6gaement une structure peptidique en commun avec les antigenes de SIV. De fa?on avantageuse, ces peptides 
comprennent normalement au plus 40 residus d'acides amines. 
Des peptides prefdres sont les suivants : 

30 



35 



40 



45 



50 
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envl 

XRV-AIEKYL-DQA-LN-WGCAFRQVCZ 
env2 

X-LE-AQI-QQEKNMYELQKLNZ 

XELGDYKLVEITPIG-APT--KR Z 

env4 

X VTV-YGVP-WK-AT--LFCA-Z 

envS 

X---QE--L-NVTE-F--W-NZ 

XL S -KPCVKLTPLCV — Z 

env7 

X-~ -N-S-IT--C-K Z 

env8 

X-I— YC-P-G-A-L-C-N-TZ 
env9 

X A-C W--Z 

envlQ 

X-G-DPE NC-GEF-YCN NZ 



envl 1 

x C-IKQ-I G YZ 

Plus particulierement I'invention concerne les peptides suivants : 
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envl 

XRV-AIEKYL-DQA-LN-WGCAFRQVCZ 

env2 

X-LE-AQI QQEKNMY ELQKLN Z 

XELGDYKLVEITPIG-APT--KR Z 

env4 

X VTV-YGVP-W--AT — LFCA-Z 

X E--L-NVTE-F— W-NZ 

env6 

XL S -KPCVKL- PLC Z 

env7 

X N-S-I C-K Z 

env8 

X-I YC-P-G-A-L-C-N-TZ 

env9 

x A-C W--Z 

£2iv1£ 

X-G-DPE NC-GEF-YC NZ 

X C-I-Q-I G YZ 

Des peptides avantageux correspondant aux pr6c6dents, presentent les formules qui suivent : 

envl 

XRVTAIEKYLQDQARLNSWGCAFRQVCZ , ou 
XR VT A I EK YLKD Q AQLN A WG C A FRQ VC Z 
env2 

XSLEQAQIQQEKNMYELQKLNSWZ , ou 
XLLEEAQIQQEKNMYELQKLNSWZ 

env3 

XELGDYKLVEITPIGFAPTKEKRYSSAHZ , ou 
XELGDYKLVEITPIGLAPTNVKRYTTG-Z 

(On remarquera que les peptides envl , env2 , env3 attestent de la tres grande parents entre HIV-2 et SIV-1 . En 
effet le premier peptide est inclu dans le geYiome de HIV-2 et le second, dans celui de SIV-1). 
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env4 

XabcdVTVeYGVPf WogAThiLFCA jZ , 

s dans lesquels les lettres de a a j peuvent avoir les significations suivantes : 

a est C, E ou D 

b est T, K, D, N ou I 

c est Q ou L 
io d est Y ou W 

e est F ou Y 

f est T, V ou A 

g est N ou E 

h est I ou T 
« j est P ou T 

j est T ou S 

o est K ou R 



20 env5 

XabcoEdeLf NVTEgFhiW jNZ , 

dans lequel les lettres de a a j peuvent avoir les significations suivantes : 
2s a est D ou P 

b est D ou N 

c est Y ou P 

d est I, V, I ou L 

e est T, V, E ou A 
30 f est V, G ou E ou - 

g est A, N, G ou S 

h est D ou N 

i est A ou M 

j est N, K ou E 
35 o est Q ou S 

env6 

XLabcSdKPCVKLoPLCuef KZ , 

40 

dans lequel !es lettres de a a f peuvent avoir les significations suivantes : 

a est F ou W 
45 b est E ou D 

c est T ou Q 

d est i ou L 

e est A, S ou T 

f est M ou L 
so o est T ou S 

u est V ou I 

env7 

55 XabCNxSylocdCeKf ghiZ f 

dans lequei les lettres de a a i et x et y peuvent avoir les significations suivantes : 
a est N ou T ou I 
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b est H ou S ou N 

c est E ou Q 

dest S, AouC 

e est D ou P 
5 f est H.VouD 

g est Y ou S 

h est W ou F 

i est D ou E 

x est T ou R 
10 y est V ou A 

0 est T ou Q 

env8 

75 XalbcdYCxPeGf AgLhCiNjTZ , 

dans lequel les lettres de a a k et x peuvent avoir les significations suivantes : 
a est A ou P 

20 \y e c?t Roup 

c est F, I ou C 
d est R ou H 
e est P ou A 
f est Y ou F 
25 g est L ou I 

h est R ou K 

1 est - ou N 

j est D ou K 
x est A ou T 

30 

XwabcxyAdCef ghizWjkZ , 

35 

dans lequel les lettres de a a k et x a z peuvent avoir les significations suivantes : 
a est K ou - ou E 
b est R ou - 
c est P ou M ou I 
40 d est W ou H ou Y 

e est W ou N ou T ou R 
f est F ou I 

g est K ou S ou N ou G 

h est G ou R ou E 
45 i est - ou A ou T 

j est K ou N ou D ou S 

k est D ou A ou N ou K ou E 

w est N, D ou I 

x est R ou G ou K 
50 y est Q ou K ou R 

z est K ou E ou Q ou N 

55 XaGbDPEcdef ghNCiGEF jYCokxlmnNZ , 

dans lequel les lettres de a a n et x peuvent avoir les significations suivantes : 
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a est K ou - ou G 

b est S ou G ou - 

c est V ou I 

d est A ou V ou T 
5 e est Y ou T ou M ou F 

f est M ou H 

g est W ou S 

h est T ou F 

i est R ou G 
io j est L ou F 

0 est N ou K 
k est M ou S 

lest W ou Q ou K ou G 
m est F ou L 
1& n est L ou F 

x est T ou S ou N 

20 XabcdwCeloQf IxgyhizGjklYZ , 

dans lequel les lettres de a a 1 et w a z peuvent avoir les significations suivantes : 

a est R ou T ou S ou N 
25 b est N ou I 

c est Y ou T 

d est A ou L ou V 

e est H ou R 

f est I ou F 
30 g est T ou M 

h est H ou Q ou A 

1 est K ou E 
j est R ou K 
k est N ou A 

35 lestVouM 

w est P ou Q 

x est N ou K 

y est W ou V 

z est V ou T ou K 
40 o est K ou R 

La structure du peptide antigenique code par !e gene cjag et designe par cjagl est egalement representee ci-apres : 

45 XDCKLVLKGLGaNPTLEEMLTAZ , 

dans lequel la lettre a designe M ou T. 

I! sera remarqu6 que, d'une facon generale, les aminoacides ayant une signification univoque (done represented 
par une lettre majuscule correspondant a la nomenclature internationale) qui interviennent dans les definitions qui 
50 precedent des peptides selon r invention, se trouvent 6tre la correspondance avec des aminoacides identiques places 
dans le meme ordre dans les sequences env ou sag correspondantes de la protelne env ou cjag d'au moins I'un des 
HIV, oudeSIV-1. 

Les positions de ces sequences sont soulignees et reperees au sein des sequences d'aminoacides des protein es 
env respectivement de HIV-2 ROD (CNCM n° I-532) et HIV-1 BRU (CNCM n° I-232) representees a la figure 2. Par 
ss ailleurs, les alignements des acides amines des protdines env et cjag respectivement de SIV-1mac (CNCM n° 1.521) 
et de HIV-2 ROD sont presentees a la figure 3 et a la figure 4. 

Les traits pleins qui apparaissent en certaines localisations de ces sequences visent a souligner que certains 
aminoacides contenus dans ces sequences ont et§ volontairement deletes au plan de la presentation, afin de permettre 
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ta mise en alignement d'aminoacides respectivement identiques (alors marques d'un asterisque) ou de deux points 
verticaux sur une meme ligne verticale dans tes sequences des proteines correspondantes de Hi V-1 et de HIV-2 d'une 
part, de SIV et de HIV-2 d'autre part. 

Outre les peptides precites, I'invention concerne egalement ies peptides modifies par insertion et/ou d6l§tion et/ 
ou substitution d'un ou plusieurs acides amines, pour autant que les proprietes antigeniques ou immunogenes desdits 
peptides ne sont pas modifiees, ou que les proprietes de reconnaissance de I'antigene ou de I'anticorps avec lesdits 
peptides ne sont pas substantiellement modifiees. 

Dans un mode de realisation particulierement prefere, I'invention concerne des peptides ayant des proprietes 
immunologiques en commun avec Tossature peptidique de la glycoproteine d'enveloppe des virus de la classe HIV-2, 
ces peptides contenant un nombre de residus d'acides amines n'excedant pas 40. 

Ces peptides preteres selon Pinvention ont les sequences suivantes : 

envl 

RVTAI EKYLQDQARLNSWGCAFRQVC 

AIEKYLQDQ 
R VSAI EKY LKDQAQLNAWGCAFRQVC 

AIEKYLKDQ 

env2 

SLEQAQIQQEKNMYELQKLNSW 

QIQQEKN 
LLEEAQIQQEKNMYELQKLNSW 

ELGD YKL VE I TP I GFAPTREKR YS SAH 

YKLVEITP IGFAPTKEK 
ELGDYKLVEITPIGLAPTNVKRYTTG- 

YKL VE I TP I GLAPTNVK 

CTQYVTVFYGVPTWKNAT I PLFC AT 

VTVFYGVPTWKNAT 
C I Q YVTVF YGVPAWRNAT I PLFCAT 

VTVFYGVPAWRNAT 

EKLWVTVYYGVPVWKEATTTLFCAS 

VTVYYGVPVWKEAT 
EDLWVTVYYGVPVWKEATTTLFCAS 

VTVYYGVPVWKEAT 
DNLWVTVYYGVPVWKEATTTLFCAS 

VTVYYGVPVWKEAT 
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env? 

DDYQEITL-NVTEAFDAWNN 

L-NVTEAF 
DDYSELAL-NVTESFDAWEN 

L-NVTESF 
PNPQEVVLVNVTENFNMWKN 

LVNVTENF 
PNPQEI ELENVTEGFNMWKN 

LENVTEGF 
PNPQEIALENVTENFNMWKN 

LENVTENF 

env6 

ETS IKPCVKLTPLCVAMK 
ETSIKPCVKLSPLCITMR 
DQSLKPCVKLTPLCVSLK 
DQSLKPCVKLTPLCVTLN 
PCVKLTPLCV 

env7 

NHCNTSVITESCD 

NTSVIT 
NHCNTSVIQECCD 

NTSVIQ 
TSCNTSVITQACP 

NTSVIT 
INCNTSVITQACP 

NTSVIT 
INCNTSAITQACP 

NTSAIT 

env8 

YCAPPGYALLRC-NDT 
YCAPAGFAILKCNNKT 
YCAPAGFAILKCNDKK 
YCAPAGFAILKCRDKK 
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fiPvS 

NKRPRQAWCWFKG -KWKD 
NERPKQAWCRFGG - NWKE 
N — MRQAHCNISRAKWNA 
IRRAYCTINETEWDK 
I — I GQAHCN I SRAQWSK 

KGSDPEVAYMWTNCRGEFLYCNMTWFLN 

NCRGEFLYCN 
GG - DP EVTFMWTNCRGEFLYCKMNWFLN 

NCRGEFLYCK 
-GGDPEIVTHSFNCGGEFFYCNSTQLFN 

NCGGEFFYCN 
-GGDPEITTHSFNCRGEFFYCNTSKLFN 

NCRGEFFYCN 
-GGDPEITTHSFNCGGEFFYCNTSGLFN 

NCGGEFFYCN 

envl 1 

RNYAPCHIKQIINTWHKVGRNVY 

CHIKQII 
RNYVPCHIRQIINTWHKVGKNVY 

CHIRQII 
TI TLPCRIKQFINMWQEVGKAMY 

CRIKQFI 
S I TLPCRI KQ I INMWQKTCKAMY 

CRIKQII 
N I T LQ CRI KQ I IKMVAGR - KA I Y 

CRIKQII 

gaol 

DCKLVLKGLGTNPTLEEMLTA 

Les peptides seion I'invention peuvent encore avantageusement etre prepares par les techniques classiques, dans 
le domaine de la synthese des peptides. Cette synthase peut etre realised en solution homogene ou en phase solide. 

Par exemple, on aura recours a la technique de synthese en solution homogene decrit par HOUBENWEYL dans 
I'ouvrage intitule "Methode der Orgariischen Chemie" (Methods de la Chimie Organique) edits par E. Wunsch, vol. 
15-1 et II., THIEME, Stuttgart 1974. 

Cette methode de synthese consists a condenser successivement deux-a-deux les aminoacyles successifs dans 
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I'ordre requis, ou a condenser des aminoacyles et des fragments pr6alablement formes et contenant deja plusieurs 
aminoacyles dans I'ordre approprie, ou encore plusieurs fragments prealablement ainsi prepares, etant entendu que 
Ton aura eu soin de proteger au prealable toutes les fonctions reactives portees par ces aminoacyles ou fragments, 
a I'exception des fonctions amines de fun et carboxyles de i'autre ou vice-versa, qui doivent normalement intervenir 

5 dans la formation des liaisons peptidiques, notamment apres activation de la fonction carboxyle, selon les methodes 
bien connues dans la synthese des peptides. En variants, on pourra avoir recours a des reactions de couplage mettant 
en jeu des reactifs de couplage classique, du type carbodiimide, tels que par exemple la 1-6thyl-3-(3-dim6thyl-amino- 
propyl)-carbodiimide. Lorsque I'aminoacyle mis en oeuvre possede une fonction acide supplemental (notamment 
dans le cas de I'acide glutamique), ces fonctions seront par exemple protegees, par des groupes t-bustylester. 

10 Dans le cas de la synthese progressive, acide amine par acide amine, la synthese debute de preference par la 

condensation de I'amino-acide C-terminal avec I'aminoacide qui correspond a I'aminoacyle voisin dans la sequence 
desiree et ainsi de suite, de proche en proche, jusqu'a I'acide amine N-terminal. Selon une autre technique preferee 
de ('invention, on a recours a celle decrite par R.D. MERRI FIELD dans ('article intitule" 'Solid phase peptide synthesis" 
(J. Am. Soc., 45, 2149-2154). 

is Pour fabriquer une chaTne peptidique selon le precede de MERRIFIELD, on a recours a une resine polymere tres 

poreuse, sur laquelle on fixe le premier acide amine C-terminal de la chaTne. Cet acide amine est fixe sur la resine par 
I'intermediaire de son groupe carboxylique et sa fonction amine est protegee, par exemple par le groupe t-butyloxy- 
carbonyle. 

Lorsque le premier acide amine C-terminal est ainsi fixe sur la resine, on enleve le groupe protecteur de la fonction 
20 amine en lavant la resine avec un acide. 

Dans ie cas ou ie groupe protecteur de la fonction amine est le groupe t-butyloxycarbcn.yle, i! peut stre eiimine 
par traitement de la resine a I'aide d'acide trifluoroacetique. 

On couple ensuite le deuxieme acide amine qui foumit !e second amino-acyle de la sequence recherche, a partir 
du residu amino-acyle C-terminal sur la fonction amine deproteg6e du premier acide amine C-terminal fixe sur la 
25 chaTne. De peference, la fonction carboxyle de ce deuxieme acide amine est activee, par exemple par ia dicyclohexyl- 
carbodiimide, et la fonction amine est protegee, par exemple par le t-butyloxycarbonyle. 

On obtient ainsi la premiere partie de ia chaTne peptidique recherchee, qui comporte deux acide amines, et dont 
la fonction amine terminale est protegee. Comme prec6demment, on deprotege la fonction amine et on peut ensuite 
proceder a la fixation du troisieme aminoacyle, dans les conditions analogues a celles de I'addition du deuxieme acide 
30 amine C-terminal. 

On fixe ainsi, les uns apres les autres, les acides amines qui vont constituer la chaTne peptidique sur le groupe 
amine chaque fois deprotege au prealable de ia portion de la chaTne peptidique d6ja formee, et qui est rattachee a la 
resine. 

Lorsque la totalite de la chaihe peptidique desiree est formee, on eiimine les groupes protecteurs des differents 
35 acide amines const ituant la chaTne peptidique et on detache le peptide de la resine par exemple a I'aide d'acide fluo- 
rydrique. 

L'invention concerne egalement les oligomeres hydrosolubles des peptides monomeres sus-indiques. L'oligome- 
risation peut provoquer un accroissement de I'immunogenicite des peptides monomeres selon l'invention. Sans qu'une 
telle indication chiflr6e puise £tre consid6r6e comme limitative, on mentionnera neanmoins que ces oligomeres peu- 
40 vent, par exemple, contenir de 2 a 10 unites monomeres. 

Les unites monomeres entrant dans cet oligomere sont soit toutes constitutes par le polypeptide de sequence 1 
ou par le polypeptide de sequence 2, soit par I'un et I'autre de ces polypeptides. 

On peut avoir recours, pour realiser I'oligomerisation, a toute technique de polymerisation couramment utilisee 
dans le domain e des peptides, cette polymerisation etant conduite jusqu'a I'obtention d'un oligomere ou polymere 
45 contenant le nombre de motifs monomeres requis pour I'acquisition de I'immunogenicite desiree. 

Une m6thode d'oligom6risation ou de polymerisation du monomere consiste dans la reaction de celui-ci avec un 
agent de reticulation tel que le glutaraktehyde. 

On peut egalement avoir recours a d'autres methodes d'oligomerisation ou de couplage. par exemple a celle 
mettant en jeu des couplages successifs d'unites monomeres, par I'intermediaire de leurs fonctions terminates car- 
50 boxyle et amine en presence d'agents de couplage homo- ou hetero- bifonctbnnels. 

On peut egalement pour la production de molecules comportant un ou plusieurs motifs de 17 acides amines tels 
que deftnis ci-dessus, avoir recours a des techniques du genie genetique mettant en oeuvre des micro-organ ismes 
transformes par un acide nucieique determine comprenant des sequences nucieotidiques appropri6es correspondan- 
tes. 

55 L'invention concerne egalement les acides nucieiques contenant une ou plusieurs sequences issues de la se- 

quence de I'ADNc du virus HI V-2 ROD. Ces sequences reperees par la numerotation figurant sur la sequence pr6ce- 
demment decrite, codent pour certains peptides interessants de l'invention. 
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Sequence codant pour envl nucleotides 


7850 


a 


7927 




« 


n 


cnv2 


M 


8030 


a 


8095 


5 


M 


m 


env3 


M 


7601 


a 


7636 




M 


« 


env4 


H 


€170 


a 


6247 




It 


M 


env5 


m 


6294 


a 


6349 


10 


N 


m 


env6 


M 


6392 


a 


6445 




n 


M 


env7 


n 


6724 


a 


6763 




H 


« 


env8 


N 


6794 


a 


6838 


IS 


N 




env9 


« 


7112 


4 


7162 


M 


« 


enviQ 


M 


7253 


a 


7336 




■ 


w 


env11 


(• 


7358 


a 


7426 




■ 


H 


aagj 


m 


1535 


a 


1597 



20 

L'invention concerne enfin les acides nuclelques correspondantsdu virus Si V, conlenani une ou p!usieurs sequen- 
ces issues de I'ADNc du virus SIV-1. Ces sequences codant pour les peptides envl a env11 et gagl peuvent etre 
rep6res sur la figure 3 par comparaison avec les sequences correspondantes d6crites pour HIV-2. 

II va de soi que l'invention concerne les acides nuclelques correspondant a des sequences placees en des regions 
2S analogues des ADNc d6riv6s de variants de HIV-2 ROD ou de SIV, ainsi que tous les acides nuclelques dont les 
modifications vis a vis des precedents resutteraient de la mise a profit de la degdnerescence du code gen&ique. 

L'invention concern© encore les conjugues obtenus par couplage covalent des peptides selon l'invention (ou des 
susdits oligomeres) a des molecules porteuses (naturelles ou synth6tiques), physiologiquement acceptables et non 
toxiques, par T intermediate de groupements rSactifs complementaires respectivement portes par la molecule porteuse 
30 et le peptide. Des exemples de groupements appropri6s sont illustres dans ce qui suit : 

A litre d'exemple de molecules porteuses ou supports macromoldculaires entrant dans la constitution des conju- 
gues selon ('invention, on mentionnera des proteines naturelles, telies que I'anatoxine tetanique, Povalbulmine, des 
serums albumines, des he*mocyamines, etc... 

A titre de support macromoleculaires synth&iques, on mentionnera par exemple des polylysines ou des polyp- 
es L-alanine)-poly(L-lysine). 

La literature mentionne d'autres types de supports macromoleculaires susceptibles d'etre utilises, lesquels pre- 
senter^ en general un poids moleculaire superieur a 20 000. 

Pour synthetiser les conjuguSs selon l'invention, on peut avoir recours a des proc&Jes connus en soi, tels que 
celui decrit par FRANTZ et ROBERTSON dans Infect, and Immunity, 33, 193-198 (1981), ou celui d6crit dans Applied 
40 and Environmental Microbiology, (octobre 1 981), vol. 42, n° 4, 611-614 par RE. KAUFFMAN en utilisant le peptide et 
la molecule porteuse appropn'6e. 

Dans la pratique, on utilisera avantageusement comme agent de couplage les composes suivants, cites a titre 
non limitatif : aldehyde glutarique, chloroformiate d'Sthyle, carbodiimides hydrosolubles [N-6thyl-N'(3-dim6thylamino- 
propyljcarbodiimide, HCI], diisocyanates, bis-diazobenzidine, di- ettrichloro-s-triazines, bromures de cyanogene : ainsi 
45 que les agents de couplage mentionnes dans Scand. J. Immunol., (1 978), vol. 8, p. 7-23 (AVRAMEAS, TERNYNCK, 
GUESDON). 

On peut avoir recours a tout procede de couplage faisant intervenir d'une part une ou plusieurs fonctions rdactives 
du peptide et d'autre part, une ou plusieurs fonctions reactives de mo!6cules supports. Avantageusement, il s'agit des 
fonctions carboxyle et amine, lesquelles peuvent donner lieu a une reaction de couplage en presence d'un agent de 
so couplage du genre de ceux utilises dans la synthese des prot6ines, par exemple, le 1 -ethyl-3-(3-dim6thylamtnopropyl) 
carbodiimide, le N-hydroxybenzotriazole, etc... On peut encore avoir recours a la glutaraldehyde, notamment lorsqu'il 
s'agit de relier entre eux des groupes amines respectivement ported par le peptide et la molecule support. 

Les peptides selon l'invention possedent des proprietes antiggniques. lis peuvent done &tre utilises dans des 
process de diagnostic pour la detection d'une infection par le virus HIV-2. 
55 Comme on I'a d6]a mentionne\ des 6tudes ont permis de distinguer deux groupes de peptides pouvant fitre mis 

en oeuvre dans des precedes de detection d'anticorps contre le virus HIV-2 dans un fluide biologique humain, notam- 
ment un sSrum ou un liquide cephalo-rachidien. 

Un premier groupe (I) comprend les peptides .gag-,. Ces peptides reconnaissent des anticorps anti-HIV-2 et sont 
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done capables de detecter une infection par HIV-2. lis reconnaissent egalement dans une certaine mesure des anti- 
corps anti-HIV-1. 

Un second groupe (II) comprend des peptides qui correspondent plus particulierement a ceux qui sont situes dans 
la partie transmembranaire et dans la fin de la partie externe de la proteine d'enveloppe. Ces peptides sont ceux 
5 precedemment designes par envt , env2 et env3 . lis permettent la reconnaissance specifique de la presence d'anticorps 
contre HIV-2 et permettent done de discriminer chez une personne les infections passees ou presentes dues a un HIV 
plus particulierement entre celles qui ont ete provoquees par un HIV-2 et celles qui I'ont ete par un HIV-1 . 

L'invention concerne egalement une composition contenant au moins Tun des susdits peptides ou au moins un 
oligomere de ce peptide, caractensee en ce qu'elle a la capacite d'etre reconnue par des scrums d'origine humaine 
10 contenant des anticorps contre le virus HIV-2. 

L'invention concerne un precede de diagnostic in vitro un ou des peptides selon l'invention pour la detection d'an- 
ticorps contre HIV-2 dans des fluides biologiques, en particulier dans des serums humains. 

D'une facon generate le precede de diagnostic in vitro ci-dessus comprend les Stapes suivantes : 

is - la mise en contact de ce liquide biologique avec lesdits peptides, 

la detection de la presence eventuelle d'un complexe peptide-anticorps par des methodes physiques ou chimiques, 
dans ledit liquide biologique. 

Dans un mode de realisation pref ere de l'invention, la detection du complexe antigene-anticorps est realisee grace 
20 & des tests immunoenzymatiques (du type ELISA), immunofluorescents (du type I FA), radioimmunologiques (du type 
RIA) ou des tests de radioimmunoprecipitation (du type Rl PA). 

Ainsi l'invention concerne egalement tout peptide selon l'invention marque a I'aide d'un marqueur adequat du type 
enzymatique. fluorescent, radioactif, etc... 

De telles methodes comprennent par exemple les etapes suivantes : 

25 

depot de quantites determinees d'une composition peptidique selon ['invention dans les puits d'une microplaque 
de titration, 

introduction dans lesdits puits de dilutions croissantes du serum devant etre diagnosticum, 
incubation de la microplaque, 
30 - rincages repetes de la microplaque, 

introduction dans les puits de la microplaque d'anticorps marques contre des immunoglobulines du sang, le mar- 
quage de ces anticorps ayant ete realise a I'aide d'une enzyme selectionnee parmi celles qui sont capables d'hy- 
drolyser un substrat en modifiant I'absorption des radiations de ce dernier, au moins a une longueur d'onde de- 
terminee, 

35 - detection, en comparaison avec un temoin de controle, de la quantite de substrat hydrolyse. 

L'invention concerne egalement des coffrets ou kits pour le diagnostic in vitro de la presence d'anticorps contre 
les virus HIV-2 et, dans certains cas, HIV-1 dans un milieu biologique qui comprennent ; 

40 - une composition peptidique selon l'invention, 

les reactifs pour la constitution du milieu propice a la realisation de la reaction immunologique, 
les reactifs permettant la detection du complexe antigenes-anticorps produit par la reaction immunologique. De 
tels reactifs peuvent egalement porter un marqueur, ou etre susceptibles d'etre reconnus a leur tour par un reactif 
marque. Plus particulierement dans le cas ou la composition polypeptidique sus-mentionnee n'est pas marquee. 

45 - un tissu fluids biologique de reference depourvu d'anticorps reconnus par la composition polypeptidique sus-men- 
tionnee, 

L'invention concerne les anticorps eux-memes formes contre les peptides de l'invention. 
II va de soi que cette production n'est pas limitee aux anticorps polyclonaux. 

50 Elle s'applique encore a tout anticorps monoclonal produit par tout hybridome susceptible d'etre forme, par des 

methodes classiques : a partir des cellules spleniques d'un animal, notamment de souris ou de rat, immunises contre 
Tun des peptides de l'invention, d'une part et des cellules d'une lignee de cellule myeiome approprie d'autre part, et 
d'etre seiectionne, par sa capacite a produire des anticorps monoclonaux reconnaissant le peptide initialement mis en 
oeuvre pour 1'immunisation des animaux. 

55 L'invention concerne egalement des compositions immunogenes pour la production de vaccins dont le principe 

actif est constitue par au moins un peptide selon l'invention, ou un oligomere de ce peptide, ou un peptide sous forme 
conjugu6e avec une molecule porteuse, caractensees en ce qu'elles induisent la production d'anticorps contre les 
susdits peptides en quantite suffisante pour aussi inhiber les prolines du retrovirus HIV-2, voire meme le retrovirus 
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HIV-2 entrant en association avec un vShicule pharmaceutiquement acceptable. 

Les compositions immunogenes pour la production de vaccins comprennent de facpn avantageuse plus particu- 
lierement au moins Tun des peptides precedemment design6s par env4 : env5 , env6 , env7 , env8 , env9 . envIO, env11 
voir des melanges de ceux-ci. 

5 Parmi ces peptides aptes a constituer des principes actifs de vaccins certains sont particulierement preteres car 

ils possedent une structure de base en acides amines correspondent a des regions des glycoproteins d'enveloppe 
qui pr6sentent un important degr6 de conservation, non seulement dans les HIV-2, et dans les SI V, mais egalement 
dans les HIV-1. Ces peptides particulierement pr6fe>es sont les peptides designed par env4 . certains peptides env5, 
envS et envIO. 

10 Dans un mode de realisation prefere" de I'invention les peptides immunogenes (ou fragments de ces peptides) 

aptes a constituer des principes actifs de vaccins sont choisis parmi ceux dont les form u les correspondent a des 
sequences qui, dans les glycoproteines d'enveloppe de HIV-2, SI V et HIV-1 pr6sentant une homologie en acides ami- 
nes supSrieure a 50%, qui appartiennent a la partie externe de I'enveloppe du virus, qui sont depourvus ou presque 
de deletions, et qui renferment des r6sidus de cysteine favorables a la stabilisation des liaisons et a la constitution de 

15 boucles d'ancrage. 

Les peptides suivants appartiennent a cette categorie de peptides pr6f6res. 

env4 

20 XVTV-YGVP-W — AT 2 

envl 

2S XL-NVTE-FZ 

envfi 

3Q XKPCVKL-PLC-2 

env7 

XN-S-I-Z 

35 

envlQ 

XNC-GEF-YC-Z 

40 

envl 1 

xc-i-Q-rz 

45 

Des compositions pharmaceutiques avantageuses sont constitu6es par des solutions, suspensions ou liposomes 
injectables contenant une dose efficace d'au moins un produit selon I'invention. De preference, ces solutions, suspen- 
sions ou liposomes sont realises dans une phase aqueuse st6rilis6e isotonique, de preference saline ou glucos6e. 

L'invention concerne plus particulierement de telles suspensions, solutions ou forme liposome qui sont aptes a 
50 etre administrees par injections intradermiques, intramusculaires ou sous-cutanees, ou encore par scarifications. 

Elle concerne egalement des compositions pharmaceutiques admin istrables par d'autres voies, notamment par 
voie orale. 

Les compositions pharmaceutiques selon I'invention, utilisables en tant que vaccins pour fitre efficaces dans la 
production d'anticorps contre le virus HIV-2, peuvent a litre d'exemple etre administrees a des doses situ6es entre 10 
55 et 500 u.g/kg, de peptides selon I'invention, de preference de 50 a 100 ng/kg. 

Ces doses sont citees a titre d'exemple et ne possedent en aucun cas un caractere limitatif. 
Comme on I'a d6ja indique plus haut les drff6rents peptides qui ont ete detinis peuvent comprendre des modifica- 
tions qui n'ont pas pour effet de modifier de facon fondamentale leurs proprietes immunologiques. Les peptides equi- 
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valents qui en resultent entrent dans le champ des revendications qui su'rvent. A titre d'exemples de peptides equiva- 
lents on mentionnera ceux dont les structures en correspondance avec des regions des ADNc d'autres variants de 
HIV-2 de SIV ou de HIV-1 , lorsque ces regions ont 6te mises en alignement dans des conditions semblables a celles 
qui ont ete evoquees ci-dessus, a propos de HIV-2 ROD, SIV et HIV-1 BRU. A titre d'autres de ces peptides, on 
s mentionnera ceux dont les structures sont en correspondance avec de telles regions dans les ADNc qui ont tait I'objet 
de depots a la CNCM ; notamment sous les numeros I-502, I-642 (HIV-2 IRMO), I -643 (HIV-2 EHO) ainsi que. dans 
les cas appropries, des variants de HIV-1 qui ont fait I'objet de depfits a la CNCM sous les numeros I-232, I-240, I- 
241.I-550J-551. 

Les peptides selon I'invention peuvent encore etre definis par les formules suivantes (dans lesquels X, Z et les 
fo tirets "-" ont les significations sus-indiquees) : 



15 



20 



25 



35 
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XRV-AIEKYL-DQA-LN-WGCAFRQVCZ 
XAIEKYL-DZ 

X-LE-AQIQQEKNMYELQKLNSWZ 
XQIQQEKNZ 

XELCDYKLVEITPIG-APT--KR Z 

XYKLVEI TP IG-APT — KRZ 

X VTV-YGVP-W--AT--LFCA-Z 

XVTV-YGVP-W — ATZ 

X E--L-NVTE-F-- W-NZ 

XL-NVTE-FZ 

XL S-KPCVKL-PLC Z 

XKPCVKL-PLC-Z 
XS-KPCVKL-PLC-Z 

X N-S-I C-Z 

XN-S-I-Z 

XYC-P-G-A-L-C-N-TZ 

X A-C W--Z 

NKRPRQAWCWFKG-KWKD 

X-G-DPE NC-GEF-YC NZ 

X C-I-Q-I G YZ 

L'invention concerne 6galement outre les peptides de SIVdeja decrits, les proteines codees par I'ADNc du virus 
SIV. Elle concerne egalement les proteines de tout virus immunologiquement etroitement apparent^ a SIV-1mac ; en 
particulier tout virus dont les proteines et les glycoprotein es d'enveloppe croisent immunologiquement etdont les ADNc 
presentent un pourcentage d'homologie d'au moins 95% et de preference d'au moins 98%. 

En particulier I'invention concerne : 

1/ les proteines et glycoproteines de i'enveloppe codees par le gene eny et representees a la figure 3, 
2/ fa proline GAG representee a la figure 4, 



20 



EP 0 750 041 A2 



3/ !a proteine POL representee a la figure 5, 
4/ la proteine Q representee a !a figure 6, 
5/ ia proteine R representee a la figure 7, 
6/ la proteine X representee a la figure 8, 
5 71 la proteine F representee a la figure 9, 

8/ ia proteine TAT representee a la figure 10, 

Les acides amines des proteines precitees de SI V, ont ete representees en alignement avec les sequences deci- 
des amines des proteines correspondantes du virus HIV-2 les points verticaux figurant entre les deux sequences 
10 correspondent aux acides amines communs entre les proteines des deux virus. 

Les sequences d'ADNc codant pour les proteines precitees apparaissent sur la figure 1B. L'invenlion concerne, 
outre les sequences nucieiques precitees toute sequence nucieiques modifi6e, qui code egalement pour les proteines 
du retrovirus SI V ou d'un variant. 

Ces sequences d'ADNc rep6r6es par la num6rotation figurant sur les sequences d6crites pr6c6demment (figure 
is 1 B) sont les suivantes : 

-sequence codant pour GAG , nucleotides 551 a 2068 



H 


»• 




M 


1726 


a 


4893 


N 


M 


Qi 




4826 


a 


5467 


II 


H 


X, 


a 


5298 


a 


5633 


N 


M 


R, 


tt 


5637 


a 


5939 


»l 


H 


F, 


n 


8569 


a 


9354 


M 


n 


TAT- 1 


M 


5788 


a 


6084 


M 


M 


ART- 1 


M 


6014 


a 


6130 


n 


■ 


TAT -2 


« 


8296 


a 


8391 


M 


■ 


ART- 2 


M 


8294 


a 


8548 


M 


M 


ENV 


« 


6090 


a 


8732 



35 

L'invention concerne done naturellement les proteines precedemment decrites, lorsqu'elles sontobtenues a partir 
du virus SIV ou lorsqu'elles sont preparees par une methode de synthese, notamment par Tune des methodes deja 
citees en rapport avec la synthese des peptides de plus petite taiile. 

L'invention concerne 6galement Putilisation des proteines pr6c6dentes pour le diagnostic de la presence 6ventuelle 

40 d'anticorps diriges contre les proteines de HIV-2, voire contre HIV-2 en entier, ou pour certaines d'entre elles I'utilisation 
aux fins de diagnostic d'une infection due a i'un des virus HIV. Ainsi le peptide GAG code par le gene correspondant 
peut etre utilise pour reperer la presence eventuelle d'anticorps anti-HIV-1 ou anti-HIV-2. Les proteines ENV sont 
utilisees de preference pour le diagnostic specifique d'une infection due a HIV-2 ou un de ses variants, parfois pour le 
diagnostic d'une infection par HIV-2 ou HIV-1. 

45 L'invention concerne done egalement un precede de diagnostic in vitro de detection d'anticorps contre HIV-2 et 

6ventuellement contre HIV-1 dans des fluides biologiques et en particulier dans des s6rums humains. De tels proc6d6s 
applicables pour I'utilisation des proteines precedentes de SIV comme proteines de diagnostic, ont deja ete decrits 
dans la presente invention. 

L'invention concerne aussi des coffrets ou 'kits" pour le diagnostic in vitro de la presence d'anticorps le virus HIV- 
so 2 et dans certains cas contre HIV-1 dans un milieu biologique. De tels kits mettant en oeuvre les peptides precedents 
ont egalement ete decrits dans la presente invention. 

L'invention concerne egalement des compositions immunogenes pour la production de vaccins, dont le principe 
actif est constitue de facon avantageuse par au moins la partie de la proteine ENV du virus SIV, cette proteine pouvant 
etre sous forme conjugu6e avec une molecule porteuse. Ces compositions immunogenes induisent la production d'an- 
55 ticorps contre le susdit peptide en quantite suffisante pour inhiber les proteines du retrovirus HIV-2, voire le retrovirus 
HIV-2 lui-meme. 

Toutefois I'utilisation aux fins de diagnostic des proteines de SIV n'est en rien limitee a celle des seuls proteines 
ENV ou GAG . D'autres proteines parmi eel les decrites peuvent etre envisagees, pour preparer des compositions de 
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diagnostic voire de vaccin. 



Revendications 

5 

1. Sequence de nucleotides caracterisee en ce qu'elle repond a la sequence nucleotidique representee a ia figure 
1 B ou a la figure 1 C, ou en ce qu'elle contient la sequence nucleotidique representee a la figure 1 B ou a la figure 
1C, ou en ce qu'il s'agit d'une partie de la sequence representee a la figure 1B ou a la figure 1C, ladrte partie de 
sequence codant pour un peptide reconnu par des anticorps presents dans le serum d'un patient infects par un 

io retrovirus HI V-2 ou etant utilisable comme sonde pour la detection dans un echantillon biologique, de la presence 

d'un retrovirus HIV-2. 

2. Sequence de nucleotides selon la revendication 1 , caracterisee en ce qu'elle comprend i'une des sequences sui- 
vantes identifiees dans la figure 1B ou dans la figure 1C 

is 
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GAG s'etendant entre les nucleotides 


550 a 2068 


POL 


1726 a 4893 


Q 


4826 a 5467 


X 


5298 a 5633 


R 


5637 a 5939 


F 


8569 a 9354 


TAT-1 


5788 a 6084 


ART-1 


601436130 


TAT-2 


8296 a 8391 


ART-2 


8294 a 854a 


LTR 


8950 a 9468 et 




1 a 316 


ENV 


6090 a 8732 



3. Sequence de nucleotides selon la revendication 1 ou la revendication 2, caracterisee en ce qu'elle comprend Tune 
des sequences suivantes identifiees dans la sequence de la figure 1 A: 

- sequence correspondant aux nucleotides 7850 a 7927 
sequence correspondant aux nucleotides 8030 a 8095 
sequence correspondant aux nucleotides 7601 a 7636 
sequence correspondant aux nucleotides 61 70 a 6247 
sequence correspondant aux nucleotides 6294 a 6349 
sequence correspondant aux nucleotides 6392 a 6445 
sequence correspondant aux nucleotides 6724 a 6763 

- sequence correspondant aux nucleotides 6794 a 6838 
sequence correspondant aux nucleotides 71 1 2 a 71 62 
sequence correspondant aux nucleotides 7253 a 7336 
sequence correspondant aux nucleotides 7358 a 7426 
sequence correspondant aux nucleotides 1535 a 1597 

4. Sequence de nucleotides caracterisee en ce qu'il s'agit d'une sequence selon la revendication 1 modifiee par 
d6gen6rescence du code genStique. 

5. Sequence de nucleotides selon la revendication 1 , caracterisee en ce qu'il s'agit de la sequence contenue dans 
le plasmide pSIV-1.1 (CNCM I-658) ou dans la plasmide pSIV-1.2 (CNCM 1-659). 

6. Sequence de nucleotides selon la revendication 1 , caracterisee en ce qu'elle code pour un polypeptide choisi parmi 

POL ROD ou POLmac represents a la figure 5 
Q RO0 ou Qmac representee a la figure 6 
R RO o ou R mac representee a la figure 7 
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X ROD ou representee a la figure 8 
Frod ou f mac representee a la figure 9 
TAT R0D ou TAT MAC representee a la figure 10 
ART ROO ou ART MAC representee a la figure 11. 

5 

7. Sequence de nucleotides selon I'une quelconque des revendications 1 a 6, caracterisee en ce qu'elle est marqu6e. 

8. Utilisation d'une sequence de nucleotides selon I'une quelconque des revendications 1 a 7 comme sonde pour la 
detection dans un echantillon biologique, d'une infection par un retrovirus HIV-2. 

10 

9. Acide nucleique recombinant caract6rise en ce qu'il comprend une sequence de nucleotides selon I'une quelcon- 
que des revendications 1 a 8, inser6e dans un acide nucleique provenant d'un vecteur. 

10. Precede de diagnostic de la presence ou non du virus HIV-2 ou d'un variant, dans des 6chantillons de serums ou 
is d'autres liquides ou tissus obtenus a partir de patients suspectes d'etre porteurs du virus HIV-2 comprenant : 

au moins une etape d'hybridation conduite dans des conditions stringentes, par mise en contact de I'ADN de 
cellules de I'echantillon du patient suspect avec une sonde selon la revendication 7 sur une membrane ap- 
propriee : 

20 - |e lavage de ladite membrane avec une solution assurant la conservation de ces conditions stringentes de 

"hybridation, 

la detection de la presence ou non du virus Hi V-2 par une methode d'immunodetection. 

11. Proc6d6 selon la revendication 10, caracterise en ce que !'6tape d'hybridation est conduite dans des conditions 
25 non stringentes et en ce que le lavage de ladite membrane est effectue avec une solution assurant la conservation 

des conditions non stringentes. 
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F IG . 1 . A i 



KIV2.R0D 
> R 

GTCCCTCTCCCGAGACGCTCCCACATTGAGCCCTGCGACCTTCTCTCCAGCACTACCACG 

TAGAGCCTCCCTGTTCCCTGCTAGACTCrCACCACCACTTCGCCGGTGCTGGGCAGACCC 

100 RjUS 
CCC JACGCTTGCTTGCTTAAAAACCTCTTAATAAACCTGCCACTiACAAGC^AGTTAAGT 

• • • « • ■ 
OTGTGCTCCCATCTCTCCTAGTCCCCCCCTGCTCATTCGGTCTTCACCTCACTAACAAGA 

200 . 
^CCTGOTCTGTTACCACCCTTCrTGCTTTCGCAAACCCAGCCACGAAAArcCCTACCAGG 

300 

TT GG C GCC TCAA C A GG G ACTTGAACAAGACTCAG A AC7CTTCGAACA CrGCT u'A 0 TG A A G 

• • • • • • 
GCACTAACGGCGCCAGCAACAAACCACCACCGAGTCCTCCTAGAAAGGCCCGGGCCGACC 

400 

caccaaaggcagcgtgtggaccgggaggagaagac>cc1 c ngct'ja ^cotaagtaccta 
caccaaaaactctaccccaaacggcttgctatocta:c?ttac^"aggtagaagattgtg 

« 500 • 

MetGlyAX *ATgA«nS€rValtcuArgC;Yl.yjL^jAX jAtfp:nvi-euG)uArgIle 
GG AGAT GG G CG CG A GAAAC TCC G TCTTG A 3 A^GG A 4 AAA \GC?.G AT G A ATT AG AAAG A AT 

600 

ArgLeuArgProClyClyLyfLysLy^TyrArgLiiLysHic 1 1 e Va ltrpA la AlaAa n 
CACGTTACGCCCCGGCGGAAAGAAAAACTACACGCTAAAr.CATATTGTGTCGCCACCCAA 

• • • » • • 
Ly»LcuA»pArgPheGlyLeuAlaCluSerLeuLeuC USer LysCluG lyCysG InLyt 

TAAATTGGACAGATTCGCATTACCAGACACCCTCTTCGACTCAAAACAGCCTTCrtAAAA 

700 

I leLeuThrVa lLeuA* pProHe t Va IProThrC lySer G luAsoLeuLy 3 Str Leu P he 
AATTCTTACAGTTTTAGATCCAATGGTACCCACAGCTTCAGAAAATTT A AAA ACTCTTTT 

• • • • • • 
AaaThrValCyaVallleTrpCytlleKisAlaClgCluLysValLysAspThrGluGly 

7AATACTGTCTGCGTCATTTGGTGCATACACGCAGAAGACAA AGTGAAAGATA CI CAACC 
« 800 • • 

AlaLy.Glnl Le7alArgArgBi*teuValAlaGluThrGlyTbrAlaCluLyiMetPro 
AGCAAAACAAATACTGCGGACACATCTACTGGCACAAACACCAACTCCACACAAAATCCC 



FIG . 1A 
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SerThrSerArgProThrAlaProSerStrGiuLyiCiyClyAanTyrProVa ICloHii 
AA CC ACA ACTA GACC AAC AGCAC CA TCTAC CGACA AGGCAGCAA ATTACCC ACT GC AAC A 

• • • • • • 
Va lClyClyAaaTyrThrHiil UProUuSerProArgThrLeuAsnAlaTrpVa ilya 

TCTACCCCCCAACTACACCCATATACCCCTGACTCCCCCAACCCTAAATGCCTGGCTAAA 

1000 

LeuValGluCluLyiLyaPheGlyAlaGluValV«iProClyPheClDAlaLcuS«rClu 
ATTACTACAGCAAAAAAACTTCCCCCCACAACTACTGCCAGGATTTCACGCACTCTCAGA 

• •«••• 
GlyCysThrProTyrAapI ieAanG InKe t LeuAanCy I Va 1G lyAapHiaC laAlaAla 

AGCCTGCACCCCCTATGATATCAACCAAATCCTTAATTCTCTCGCCGACCATCAACCACC 
1 100 

MetGlnllelUArgGluIlelleAsnGluGluAlaAlaGluTrpAapValGlnHiaPro 
CATGCACATAATCAGCGACATTATCAATCACCAACCACCACAATGCCATGTCCAACATCC 

1200 

IleProClyProLtuProAl aGlyGloLeuArgC luFroArgG lySe rAspIleAlaGly 
AATACCAGCCCCCTTACCAGCGGCGCAGCTrAGAGACCCAACGGGATCTCACATACCAGC 

• • • • • • 
ThrThrSerThrVa 1C 1 uC luG In 1 1 eC InT r pHe t Ph e Ar gP roC 1 nA a dP r o Va 1 P r o 

CACAACAAGCACAGtAGAAGAACAGATCCACTGGATGTTIACCCCACAAAATCCTGTACC 

1300 

ValClyAanlleTyrArgArgTrpIleClal UC lyLeuC loLya Cy aVa lArgrtettyr 
AGTAGGAAACATCTAIAGAAGATGGATCCAGATAGGATTGCAGAAGTGTGTCAGGATGTA 

• • • • • • 
AanProTbrAaoIleLeuAap IleLysG ioG lyPr oLy iG lu Pro PheG lnSerTyrVa 1 

CAACCCGACCAACATCCTAGACATAAAACAGGGACCAAAGGAGCCGTTCCAAAGCTATGT 
1400 .... 
A a pArgPheTyrLys SerLeuArgAlaCluC UThr Ai pP ro A 1 a Va 1 Ly a Aa o TrpMe t 
AGATAGATTCTACAAAAGCTTGAGGGCAGAACAAACAGATCCAGCAGTGAACAATTGGAT 

1500 

ThrGloThrLeuLeuVa lGlnAanAlaAa cProAapCy aLyaLeu V* 1 LeuLyaG ly Leu 
GACCCAAACACTGCTAGTACAAAATGCCAACCCACACTCTAAATTAGTGCTAAAAGGACT 

• * • < • • 
ClyKetAanProThrLeuCluGluHetLeuThrAlaCyaGUGly Va lGlyCl yProCly 

AGCGATCAACCCTACCTTAGAAGAGATGCTGACCGCCTGTCAGGCGGTAGGTCCCCCACC 
. . „ « « 1600 • • 

ClnLyaAlaArgLeuKetAlaGluAlaLeuLy'aGluVallleGlyProAlaProIlePro 
CCA GAAAGCTAGATTAATGGCAGACGCCCTGAAAGAGGTCATAGCACCTGCCCCTATCCC 

PheAlaAlaAlaGlnGlnArgLyaAlaPheLyaCyaTrpAaoCyaGlyLyaGluClyHia 
ATTCGCAGCAGCCCAGCAGAGAAAGGCATTTAAATGCTGGAACTGTGGAAAGGAAGGGCA 
1700 • 

SerAlaArgGlnCyaArgAUProArgArgGlnClyCyaTrpLyaCyaGlyLyaProGly 
CTCGGCAAGACAATGCCGAGCACCTAGAACGCAGGCCTGCTGGAACTGTGCTAAGCCAGC 

• • « . • 1800 

TbrGlyArgPhePhcArgThrGlyProLeuGly 
HialleMatThrAanCyaProA.pArgClnAlaClyPheLeuClyLeuClyProTrpCly 
ACACATCATGACAAACTCCCCAGATAGACACCCACCTTTTTTAGGACTGCGCCCTTCCCC 

• ••••« 
LyaCloAlaProCULeuProArgGlyProSerSerAUClyAlaAapTbrAaoSerThr 

LyaLyaPToArgAaoPhcProValAlaGlnVAlProGloGlyLenThrProThrAlaPTO 
AAACAACCCCCGCAACTTCCCCGTGGCCCAAGTTCCGCAGGGGCICACACCAACAGCACC 

• . . 1900 • • 
ProSerGlySerSerSerGlyS^rthrGiyGluIleTyrAlaAlaArgCluLyaThrGiu 

FroValAapProAUValAapLeuLauCluLyaTyrHetClnCloClyLyaArgGlDArg 
CCCAGTCCATCCACCACTGCATCTACTCCACAAAIATATGCAGCAAGCCAAAAGACACAC 

• • • a • ■ 

ArgAlaGluArgGluThrlleCUGlySerAapArgGlyLeuTbrAlaProArgAlaGly 

GluClnArgCluArgProTyrLyaCiuValThrGluAapLeuLeuHiaLeuCiuGloCly 
ACAGCAGACACAGAGACCATACAACGAAGTGACAGACGACTTACTCCACCTCGAGCAGGC 

( fig. lA-aulte \) 
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ClyA.pThrlieClnClyAUThrAjnArfiClyLeoAlaAlaProClnPhcSerUuTrp 

CluThrProTyrArgCLuProProThrCluA.pLeuLeuHiiLeuAsnSerLcuPhcCly 
CCACACACCATACAGCGAGCCACCAACACACCACTTCCTCCACCTCAATTCTCTCTTTGC 

2100 

LysArgProValValThrAl*TyrIleCluClyGUPr£>ValGluValLcuLeuA$pThr 

AAAAGACCACTAGTCACACCATACATTGACGGTCAGCCAGTAGAACTCTTGTTACACACA 

GlyAlaAspAspSerlleValAlaCiylleGULeuGlyAsnAanXyrSerProLyalle 
CGGCCTGACCACTCAATAGTAGCAGCAATAGACTTACGGAACAATTATAGCCCAAAAATA 

2200 

ValClyGlylleGlyGlyPhelieAsnXhrLysCUXyrLysAsnVa IGluIWGluVal 
CTAGGCGGAATAGCGGGATTCATAAATACCAACGAATATAAAAATCTAGAAATAGAACTT 

LeuABnly»LyfValArgAlaThrIUHetThrClyAspThrProIlcA«nIlcPheCly 
CTAAATAAAAACCTACGGCCCACCATAATGACAGGCCACACCCCAATCAACATTTTTCCC 

2300 . 

ArgAsnIleLeuTbrAlaL€uClyMetS«rLeuAanL€uProValAlaLysValCluPro 
AGAAATATTCTGACAGCC TTAGGCATGTCATTAAATCTACCAGrCCCC AAAGTAGAGCCA 

2A00 

llcLyilUlietLeuLysProCiyLyaAapClyProLysLeuArgG 1« TrpProLeuXhr 
ATAAAAATAATGCTAAACCCACCGAAACATCGACCAAAACTCAGACAATCGCCCTTAACA 

Ly$GluLyiIUCluAlaLeuLy«CluIlcCy«CluLysMetGluLy$CluClyGlnLeu 
AAAGAAAAAATACAACCACTAAAACAAATCTCTCAAAAAATCCAAAAAGAACGCCACCTA 

2500 

CluCluAlaProProThrAinProTyrAsnThrProThrPheAlaIleLysLy*LysA«p 
CACCAAGCACCTCCAACTAATCCTTATAATACCCCCACATTTCCAATCAAGAAAAAGGAC 

LyaA8nLy«TrpArgM€tLeaIleAspPheArgCluLeuAsQLyaValThrCloAapPhe 
AAAAACAAAXCCACGAXGCXAAXACAXXXCACACAACTAAACAACCTAACTCAACAXIXC 
2600 . 

XhrGluIleClnLeuClylleProBiiProAlaClyLeuAlaLyaLysArgArglleThr 
ACACAAAXXCACXIACGAAXTCCACACCCACCACCCXXCCCCAACAACACAACAAXXACX 

2700 

ValLeuAipV.lClyA.pAlaTyrPbeSerlleProLeuHiaCluAspPhcArgProTyr 
CTACTACATCTAGGCGATCCTTACTTTTCCATACCACTACATGAGGACTTTACACCATAT 

• • • • • 

ThrAlaPheThrLtuProS«rYalAinA8nAlaCluProGlyLy$ArgTyrIlcTyrLya 
ACTCCATTTACTCTACCAXCAGTGAACAATGCACAACCAGGAAAAAGATACATATATAAA 

2600 

ValLeuProGlnGlyXrpLyaGlySerProAlallePheClnHiaThrMetArgClttVal 
GTCTTCCCACAGGGATGCAACCCATCACCAGCAATTTTTCAACACACAATGAGACACGTA 

• ••••• 
LeuCluProPhaAtgLyt AlaAsoLysAtpTalllellcXleGloTyrMecAipAipIle 
XTAGAACCATXCAGAAAACCAAACAACGAIGXCAXIAXCATXCAGXACAXGGAXCAXATC 

• 2900 • • • • 
LeuIleAlaSerAtpArgXhrA*pL«uG UHia AapArgVa 1 Va ILeuGloLeuLyaClu 
XXAAXAGCXAGXGACAGGACACAXIXACAACAXGAXACGCXACXCCXCCACCXCAAGCAA 

3000 

L«uLeuAiaClytcuClyPheSerXhrProAipGluLyaPheGlnLy«AapProProTyr 
CTXCXAAAXCGCCIACCAXXXXCXACCCCAGATGAGAAGXXCCAAAAACACCCTCCAXAC 
« • • • • • 

HisXrpMetG lyXy rG luLeuXrpPr oXhrLy ■ Tr pLy* LeuC InLysIleG InLeuPro 
CACXGGAXGCGCXAXGAACXAXGGCCAACXAAAXGGAAGXXGCAGAAAAXACAGXXGCCC 

3100 

GlnLysGluIlcXrpTbryalAsnAspXleGlDLyaLeuValGlyValLeuAaDXrpAla 
CAAAAAGAAAXAXGGACAGXCAAXGACAXCCAGAAGCXACXCGGXGXCCTAAAXXGGGCA 

^fig.lA-suite 2) 
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A laClnLeuTyrProClyX leLyiTbr Ly«Hi iLeuCyi AigLeu I leArgCly Ly«Me t 
CCACAACXCTACCCAGGGATAAACACCAAACACXTATCTAGCTTAAXCACACCAAAAAXG 
3200 . 

ThrLeuThrCluCluVAlG InTrpThrC lu Leu AUG luAlaCiuLcuC luC luAtnArg 
ACACTCACAGAAGAACTACACTCG ACA GAATTAC C ACAAC C ACAC CTAC AACAAAA CACA 

3300 

IlelleLeuSerGlnG luC loC luC ly HiiTy rTyrC InC luC luLygG luLeuC LuAla 
ATTAXCCXAAGCCACCAACAACACCCACACTATTACCAACAAGAAAAAGAGCTACAACCA 

T^rVftJClnLys^spGluGluf snGluTrpThrTyrLysIleHisGlnGluGluLysIU 
AGAGTCCAAAAGGATCAAGAGAATGAGTGGACATATAAAATACACCAGGAACAAAAAATT 

LeuLy*ValGlyLy«TyrAiaLyeV*lLy»A«nThrHi»ThrA»nC lylleArgLeuLeu 
CTAAAAGTAGCAAAATATCCAAAGCTCAAAAACACCCATACCAATCGAATCAGATTCTTA 
«••«*« 
AlaClnValValCloLytlleGlyLyaCluAlaLeuVallleTrpClyArglleProLy* 
CCACAGGTAGTTCAGAAAATACGAAAAGAACCACTAGTCATTTGCCGACGAATACCAAAA 
3500 «... 
PheHi«LeuProValGluArgCluI leTrpC luC UTrpTrpAtpAaoTy rTrpG InVa 1 
TTTCACCTACCAGTAGAGAGACAAATCTCGCACCAGTGGTCGGATAACTACTGGCAACTC 

* . 3600 
ThrTrpIleProAfpTrpAipPheValScrTtarProProLeuValArgLeuAlaPbeAan 
ACATCCAXCCCACACXCCGACXTCGTCTCTACCCCACCACTCGTCACGXTAGCGTXTAAC 

• ••*»• 
LeuValClyAapProIlcProClyAlaCluThrPheTyrThrAtpClySerCyaAinArg 
C TGGTA GG GCA T CC TAT AC CAGCTGC A GAG AC CTT CTAC AC AC ATGG AT CCTCCAATAGC 

3700 

ClnSerLyBCluGlyLytAlaGlyTyrValThrAfpArgClyLyBAapLytValLyaLyi 
CAATCAAAAGAACCAAAACCACGATATCTAACACATACACGCAAAGACAACCTAAAGAAA 

LauCluClnTbrTbrA»oCUCUAiaCluLeuCluAlaPbeAlaMetAlaLeuTbrAap 
CTAGAGCAAACTACCAATCAGCAAGCAGAACTAGAAGCCTTTGCGATGGCACTAACAGAC 
3S00 .... 
SerClyProLyaValAtallelleValAipSerGlnTyrValHetGLylleSerAlaSar 
TC GG GT CC AA A AGTTAATATT A TAGTAG AC TC AC AG TATGTAATGCGG AT CAGTCCA AG C 

• • • • 3900 
GlaProTbrGluStrGluS«rLytXlcV*lAtoCUUeXl«GioGluM«tXleLyaLyt 
CAACCAACAGAGTCAGAAAC TAAAATAGTGAACCAGATCATAGAAGAAATGATAAAAAAG 

CluAlaIl«TyrValAlaTrpValProAlaBialyaGlyileGlyClyAanGlnGluVai 
GAAGCAATCTATCTTGCATGGCTCCCACCCCACAAAGGCATAGCCCGAAACCAGGAACTA 

• • • 4000 « ♦ 
AapHiilauValSerClnGlylleArgGl&ValLeuPheLeuCluLyalleGluProAla 
CAXCATXTAGTCAGTCACGCTATCACACAACTGTTGTTCCTGGAAAAAATACAGCCCCCT 

*•«••• 
GlnGl«CluHiiCluLy«TyrHi«SerAfnValLy*CluLeuS«rHi»LytPb«CXyIl« 
CACCAAGAACATGAAAAATATCATAGCAATGTAAAACAACTGTCTCATAAATTTCGAATA 
4100 

ProAanLeuValAlaArsGlnlleValAanSarCyaAlaClnCyaGlaGXatyaGlyGlu 
CCCAATTTAGTCCCAACCCAAATACTAAACTCATGTGCCCAATCTCAACAGAAAGCCGAA 

• • • • « 4200 
AlalleHiaGlyClnValAanAlaGluLeuGljTbrTtpGlnMetAapCyaTbruiaLcu 
CCTATACATGCCCAAGTAAATGCAGAACTAGGCACTTCCCAAATGGACTGCACACATTTA 

• •♦ ♦ • • • 
GluGlyLyalleXlellaValAlaValBitValAlaScrGlyPbelleGluAlaGluTal 
GAAGGAAAGATCATTATAGTAGCACTACATGTTCCAACTCGATTTATAGAAGCAGAACTC 

* . 4300 . « 

IX«ProGlnCluScrGlyArgGlnTbrAlaLeuPheLeuLeuLytL«uAlaS«rArsXrp 

ATCCCACACCAATCAGGAAGACAAACAGCACTCTTCCTATTGAAACTGCCAACTACGTCC 

<£ ig.lA-suitc 3) 
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ProlUTbrHitLeuHiaTbrAipAanGlyAlaAenPbeTbrS«rGloCluVali;y«Het 
CCAATAACACACTTCCATACACATAATGCTGCCAACTTCACTTCACACCACCTGAACATC 
. 4400 

ValAlaTrpTrpI WGlyl ieG luGlaSer PheGly V* IP roTyr Aa aProC laSe rC In 
CTACCATCCTGGATAGGTATACAACAATCCTTTGCAGTACCTTACAATCCACACACCCAA 

ClyV«lVAiOiuAlaMetABnHitHi«LeuLy*AinGlaIi«£trGluT«rIieVA ILeu 
GGACTAGTAGAAGCAATGAATCACCAICTAAAAAACCAAATAACTCAAACAATACTACTA 

• ••••* 
HetAUlleHiaCyaMetAioPbeLyaArgArgClyClylleClyAapMatTbrProSer 
ATCGCAATTCATTCCATGAATTTTAAAACAAGGCCGGCAATAGGCGATATGACTCCATCA 

4600 

GluArgLeuIleAsnMet I leTbrThrC luG InC lul 1 eGXnPheLeuG loAl aLysAan 
CAAAGATTAATCAATATCATCACCACACAACAACAGATACAATTCCTCCAACCCAAAAAT 

• 4 • • • • 

SerLytLeuLysAapPheArg Va lTy rP heArgC luG lyArgAapC InLeuTrpLysCly 
TCAAAATTAAAAGATTTTCGCGTCTATTTCAGACAAGGCACACATCACTTGTGCAAAGCA 
4700 • 

ProClyCluLeuLeuTrpLyaClyCluClyAlaValLeuVa UyaValClyTbrAspIle 
CCTGGGCAACTACTCTGCAAACCAGAACCAGCAGTCCTACTCAACGTACCAACACACATA 

4800 

LysnelleProArgArgLysAlaLyaUelleArgAapTyrClyGlyArgGlaCluHet 

MetG loGluAt pLysArgTrp 
AAAATAATACCAAGAAGGAAAGCCAAGATGATCAGAGACTATGGAGGAAGACAAGAGATG 

• • • * • • 
AtpSerGlySerHif LeuG luGlyAleArgGluAtpG lyGluMetAla 

I leValVa lProThrTrpArgValProClyArgHetGluLyiTrpHisSerL«uVaiLya 
GATAGTGGTTCCCACCTCGAGCCTGCC AGGGAGGATGGAGAAATGGCATAGCCTTGTCAA 

4900 . 

Ty rLeuLy»TyrLy* Tbr Ly§ AapLeuG luLy t Va ICy tTy rV* IP r oHiaKia Lya Va 1 
GTATCTAAAATACAAAACAAAGGATCTAGAAAAGGTGTGCTATGTTCCCCACCATAAGGT 

• • • • « • 
GlyTrpAlaTrpTrpTbrCyaStrArgValllePbeProLeutyaGlyAanSerBiateu 

GGGATGGGCATGGTGGACTTGCAGGAGGGTAATATTCCCATTAAAAGGAAA CAGTCATGT 
5000 .... 
C lull eC InAlaTyrTrpAaaLeuThrProG luLyiClyTrpLeuSerSerTyrSerVa 1 
AGAGATACACCCATATTCGAACTTAACACCACAAAAACGATGCCTCTCC TCTTATTCACT 

• • r? • • *fe • 5100 
ArgIleTbrTrpTyrTtarGlttLyaPheTrpTbrAapVaiTbrProAapCy«AUA»pV«l 

AACAATAACTTCCrACACAGAAAACTTCTGGACAGATGTTACCCCACACTGTCCAGATCT 

• • • • • • 
ieuIlefliiBerThrTyrPbeProCyaPbeTbrAlaCiyCluValArgArgAlalleArg 

GCTAATACATAGCACTTATTTCCCTTGCTTTACAGCAGGTGAAGTAAGAAGAGCCATCAG 

5200 

GlyGloLyaLeutcuSerCyiCyaAanTyrProArgAlaHiaArgAlaGlnValProSer 
AGGGCAAAACTTATTGTCCTGCTCCAATTATCCCCCACCTCATACACCCCAGGTACCCTC 
*•••«• 
LeiiGiaPheLeuAlaLeuTalValValGlnClBAanAapArgProGlnArgAapScrThr 

MatTbrAapProArgCluTbrValPro 
ACTTCAATTTCTGGCCTTAGTGCTAGTCCAACAAAATGACAGACCCCAGAGAGACAGTAC 
5300 • 

ThrArgLysGlnArgArgArgAipTyrArgXrgGlyLeuArgLcuAlaLyaCUAapSar 
ProClyAanSerClyCluGluThrlleGlyCluAUPbeAiaTrpLeuAanArgThrVal 
CACCACCAAACAGCCCCCAACACACTATCGCAGACCCCTTCCCCTGGCTAAACAGCACAG 

• • . • • 5400 
ArgSerHifLyaGlnArgSarSarGluSerProTbrProArgThrTyrPheProGlyVai 

GluAlallcAaaArgCluAlaValAanHiateuProArgCluLeuIlaPbeCloValTrp 
TAGAAGCCATAAACACACAAGCACTGAATCACCTACCCCCACAACTTATXTTCCACCTCT 
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AUGluValLeuCluIleLeuAla 
ClnArgSerTrpArgTyrTrpHiaAapC luClnC lyMetSerC luSerTyrThrLyaTy 
CCCACACGTCCICCACATACTCGCATCATCAACAACCGATCTCAGAAACTTACACAAACT 

55O0 

ArgTyrLeuCy«IleIleClnLyaAlaValTyrMetHiaValArgLysGlyCyaThrCy 
ATA G AT ATTTC TGC ATAATACA G AAAG C ACT CTA C A TGCATG IT A GG A A AGGGTCTACTT 

• ••••• 
LeuGlyArgGlyBiaGlyFroGlyGlyTrpArgProG lyProProP roProProProPr 

GCCTGCGGACCCCACATCCCCCAGCAGCCTGCACACCACGGCCTCCTCCTCCTCCCCCTC 
5600 ♦ • . * 

He tAlaGluAl *Pr oThrC luLeuP roPro Va lAepC lyThrProLeu 
GlyLeuVal*** 

CAGGTCTGGTCTAATGGCTGAAGCACCAACACAGCTCCCCCCGGTGCATGGGACCCCACT 

ArgGiuProGlyAspGluTrpIlelleCluIleLeuArgCluI leLysC UC luAlaLeu 
GACGCAGCCAGGGGATGAGTGCATAATAGAAATCTTCACAGAAATAAAAGAACAAGCTTT 

• • • • • • 
LysHiaPheAspProArgLeuLcuIlcAULeuG lyLysTyr I leTy r ThrArgH i sG ly 

MetGlu 

AAAGCATTTTCACCCTCGCTTGCTAATTGCTCTTGCCAAATATATCTATACTAGACATGC 

5800 

AepTbrLeuGluClyAlaArgGluLeuIleLyaValLeuGlnArgAlaLeuPheThrHit 
ThrProLeulysAlaProG lu$ erSerLeuLyaS e rCy sAmG luProPhcSerArgThr 
AGACACCCTTGAAGGCCCCAGAGAGCTCATTAAACTCCTGCAACGAGCCC TTTTCACGCA 

• ••*•• 
PheArgAlaG lyCyaG lyH i eSerArg I lcC lyG InThrArgG lyG 1 yA t n ProLeuScr 

SerGluGinAapValAlaThrGlnGluLauAlaArgGlttGlyGluGluIleteuScrGlD 
CrTCACACCACCATCTCGCCACTCAACAATTCCCCACACAAGCGGAGCAAATCCTCTCTC 
5900 . 
AlalleProThrProArgAanMetGln 
LeuTyrArgProLeuGluTbrCyeAsoAaoSerCyaTyrCyaLysArgCyaCyaTyrHia 
ACCTATACCCACCCCTACAAACATCCAATAACTCATCCTATTCTAAGCGATCCTCCTACC 
• * • • 6000 

MecAaoG luArgAUAap 
CyaCloMctCyaPheLcuAanLyaClyLeuGlylleCyaTyrCluArgLyaGlyArgArg 
ATTCTCACATGTGTTTTCTAAACAAGCCCCTCGCGATATCTTATCAACCAAACCGCACAC 
*••••• 

GluGluGlyLcuGlnArgLyaLeuArgteuIleArgLeuLauHiaGinThrSerCiuTyr 

Met 

ArgArgThrProLyiLyaThrLyaThrBiiProSerProThrProAf pLya 
GAACAACCACTCCAAACAAAACTAACACTCATCCGTCTCCTACACCACACAACrGAGTAT 

6100 

A«pCluSerAlaAlaTyrCyaHiaPh«Ile$er 

MetAanGlnLeuLeuIlaAlalltLeuLeuAlaSerAlaCyiLeuValTyrCyaThrGln 
GATCAATCAGClCCTTATTGCCATtTTATTACCTACTCCTTCCTTAGTATATTCCACCCA 
• • • • • ♦ 

TyrValThrValPbaTyrGlyValProThrTrpLyaAanAlaTbrlleFroLeuPheCya 
ATATGTAACTGTTTTCTATCGCGTACCCACCTCCAAAAATGCAACCATTCCCCTCTTTTC 
6200 ♦ 

AlaThrArgAaaArgAapTbrTrpGlyTbrlleGlgCyaLevProAspAaaAapAapTyr 
TGCAACCAGAAATAGGGATACTTGGGGAACCATA CAGTGCTTGCCTCACAATGATGAT TA 
••«•,« 6300 
GlnGluIleTbrLeuAanValTbrGluAlaFbaAapAlaTrpAtnAanTbrValTbrGLu 
TCACCAAATAACTTTCAATCTAACAGACGCTTTTGATCCATCCAATAATACAGIAACAGA 
•••••• 

GlnAUIleGluAtpValTrpBii LeuPheC luTbrSarlleLyaProCya ValLyaLeu 
ACAACCAATACAAGATCTCTGGCATCTAITCCAGACATCAATAAAACCATCTCTCAAACT 
•(flg.lA-sufte 5) 6400 
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ThrProLeuCyaValAlaKetLyeCyaSerSerTbrCluSerSerThrClyAaoAanTbr 
AACACCTITATCTCTAC CAATCAAATGCAGCAGCAC ACACACCAGCACAGGCAACAACAC 

TbrSertyaSerTbrSerTbrTbrlbrThrTtarProThrAapGlDCluClnCluIieSer 
AACCTCAAAGAGCACAACCACAAC CACA ACCACACCCACAGACCAGCACCA AGACATA AC 
6 500 • » . « 

CluAapTbrProCyaAlaArgAlaAapAaoCyaSerCiyLeuClyCluCluCluThrlle 
TCAGCATAC TCCATGCCCACGCGC AGACAACTGCTCACCATTGGGAG AGGAAGAAACGAT 

6600 

Aa nCyaGloPheAaDHetTbrClyLeuG luArgAapLyaLyt LysG InTy rAanCluThr 
CAATTCCCAGTTCAATATCACAGGATTAGAAACACATAAGAAAAAACAGTATAATGAAAC 

• ••••• 
TrpTyrSerLya AapValVa ICy a G lulbr Aao AaaSer Tbr AbbG InTbrG InCyaTy r 

ATGCTACTCAAAAGATGTGGTTTGTGACACAAATAATACCACAAATCACACCC ACTCTTA 

6700 

MetAanHisCysAanThrSerVa II leThrCluSerCyaAapLysH i aTyrTrpAipAl a 
CATGAACCATTGCAACACATCAGTCA7CACAGAATCA7GTGACAAGCACTATTGCGATCC 

• ■ • • • • 

1 1 eArgPheArgTy rCy aA laProProC lyTyrAlaLeuLeuArgCy s AjoAspThrAen 
TATAAGGTTTAGATA CTGTCCA CCACCG GGTTATGCC C TAT TAAG AT CTA AT G ATA CCAA 
6800 • 
TyrSerClyPheAlaPxoAanCysSerLya ValVa lAlaSerThrCyaThrArgMe tHet 
TTA TTCACGCTTTGCACCCAACTCTTCTAAACTAG TAG CTTCTA CATC CACCACGAT CAT 

6900 

CluThrClnTbrSerTbrTrpPbeClyPheAanClyThrArgAlaCluAa nArgThrTyr 
GGAAACGCAAACTTCCACATGGTTTGGCTTTAATGGCACTAGAGCACAGAATACAACATA 
■ ••*•« 
I leTyrTrpHiaG LyArgAapAanArgTbr I lei leSerLeuAa&Ly aTyrTyr AanLeu 
TATCTATTGGCATGGCAGAGATAATAGAACTATCATCAGCTTA AACAAATATTATAATCT 

7000 

SerLeuHiaCyaLyaArgProG lyAaoLya ThrVa lLyaG loIleKetLeuMeCSerGly 
CAGTTTGCA TTGTAACAGGCCAGGGAATAAC ACAGTGAA ACAAATAATCCTTATCTCACG 

• •#••• 
HiaVaiPheHiaSerHiaTyrClnProIleAanLyaArgProArgGlaAlaTrpCyaTrp 

ACATGTGTTTCACTCCCACTACCAGCCCATCAATAAAAGACCCAGACAACCATCGTCCTC 
7100 . . . . 

PheLyaClyLyeTrpLya AapAlaHetClqC UValLyaC luThrLeuAlaLyaHiaPro 
CTTCAAACGCAAATCCAAAGACGCCATGCAGCAGGTCAAGGAAACCCTTGCAAAACAICC 

• • • • • 7 200 
ArgTyrArgClyTbrAaaAapTbrArgAenIieS«rPb«AUAlaPr©ClyLyaGlySer 

CAGCTATAGACCAACCAATCACACAAGGAATATTAGCTTTGCACCGCCAGGAAAAGGCTC 
* • • • • • • 

AapPraGluValAlaTyrHetTTpTbrAcoCyaArgGlyCluPheLeuTyrCysAtnMet 
AGACCCAGAAGTAGCATACATCTGGACTAACTCCAGACGAGAGTTTCTCTACTGCAACAT 

7300 

rbrTrpPbeLeuAanTrpIleGluAanLyaThrHiaArgAanTyrAlaProCyaHialle 
CACTTCCTTCCTCAATTCGATACAGAATAACACACACCCCAATTATGCACCCTCCCATAT 

• • • « . . 
LyaGlnllelleAenTbrTrpHiaLyaValGlyArgAanValTyrLeuProPreArgClu 

AAACCAAATAATTAACACATCCCATAACGTACGCAGAAATGTAIATTTGCCICCCACCCA 
7400 . . 

ClyGluLeuSerCyaAanSarThrValThrSerllelleAlaAaoIleAapTrpCliiAao 
ACCCCACCTCTCCTCCAACTCAACACTAACCACCATAATTGCTAACATTCACTCGCAAAA 

• • • • .7500 
AanAacClnTbrAaoIUThrPheSerAlaGluVaUlaCluLeuTyrArgLeuGluLeu 

CAATAATCAGACAAACATTACCTTTACTCCACACCTCGCACAACTATACAGATIGGACIT 

• • • • • • 
ClyAapTyrLyatcuValClttlleTbrProIleClyPbcAlaProTbrLyaGluLyaArg 

G G G AG ATT ATAAATTGG TA GAAATA A CA CC AATTGG CTTCGC AC C TA CA AA AC AAAA A AC 

Cflg.U-auit'e 6) 7600 
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TyrSerSerAlaHiaGlyArgHiaTbrArgGlyValPbeVa lLeuG lyPbeLeuC lyPbe 
ATACTCCTCTGCTCACCCGACACATACAACACCTCTGTTCCTCCIACCGTTCTTGGCTTT 

LeuAlaTbrAlaGlySerAlaHetClyAlaAiaSerLeuThrValSerAlaGlnSerArg 
TCTCGCAACAGCAGCTTCTCCAATGGGCGCGGCGTCCCTGACCGTGTCCCCTCACTCCCC 

• 7700 • « . • 
ThrLeuleuAlaC iy X leVa 1G InG InG InG lnClnLeuLeuAspVa I Va ILyiArgCln 

GACTTTACTGGCCGGGATACTGCACCAACACCAACAGCTGTTCGACCTCGTCAACAGACA 

7 BOO 

GlnGluLeuLeuArgLeuTbr Va lTrpClyTbrLyaAanLeuClnAlaArgValTbrAla 
ACAAGAACTCTTCCGACTGACCCTCTCCGGAACCAAAAACCTCC AGGCAAGACTCACTGC 

■ • • • * • 

1 1 eC 1 uLy a Ty rLeuG In A a pG InAl aArgteuAfuSerTrpG lyCy aAl ePbeArgC In 
TATAGACAACTACCTACAGGACCAGGCGCGCCTAAATTCATCCGCATCTGCGTTTAGACA 

• m • 7900 «. • 

Va lCysHiaThrTbrValProTrpVa lAanAapSerLeuAlaProAapTrpAapAauMet 
AGTCTCCCACACTACTCTACC ATGGGTTAATGATTCCTTACCACCTCACTCCCACAATAT 

■ ••»•« 
ThrTrpG InG luTr pG luLyaG InVa lArgTyrLeuG luA 1 aAan IleSerLyaSerLeu 

CACCT-CGCAGGAATGCGAAAAACAAGTCCGCTACCTGGA.GGCAAATATCACTAAAACTTT 
8000 .... 
CluG InAlaG Id 1 1 eGlnGloG luLyaAanHet TyrG luLeuG lnLya LeuAi nSer Trp 
AGAACACCCACAAATTCAGCAAGAGAAAAATATGTATGAACTACAAAAATTAAATACCTG 

• • . 6100 

AspIlePbeClyAanTrpPhcAapLeuThrSerTrpValLyaTyrI ieGlnTyrGly Va I 
GGATATTTTTCCCAATTGCTTTGACTTAACCTCCTGCCTCAAGTATATTCAATATGCAGT 

LeuIlelleValAlaVallleAlaLeuArglleVallleTyrValValClnHetLeuSer 

Val 

CCTTATAATACTACCACTAArACCTrTAAGAATAGTCATATATCTACTACAAATCTTAAC 

8200 • « 

AlaCyiPbeLeuPbeProProArgLeuTyrProThrAap 
ArgLeuArgLyaGlyTyrArgProValPbaSerSerProProGlyTyrlleGlnC In I la 
ClyleuGluArgAlalleClyLeuPbcSerLeuProProProVallleSerAaDArgSer 
TAGGCTTAGAAAGCGCTATACCCCTGTTTTCTCTTCCCCCCCCCGTTATATCCAACACAT 

ProTyrProGlnGlyProGlyTbrAlaSerGluArgArgAanArgArgArgArgTrpLya 
HialleHieLyeAapArgGiyClnProAlaAanCluGUTbrGluGluAipClyClySer 
XleSerTbrArgThrGlyAf pSerGUProTbrLyaLyeGlnLycLyaTbrValGluAla 
CCATATCCACAACCACCCCCCACACCCAGCCAACCAACAAACACAACAACACGCTCCAAG 
8300 .... 

GlnArgTrpArgClnlleLeuAlaLeuAiaAapSerlleTyrTbrPbeProAapProPr© 
AanClyClyAapArgTyrTrpProTrpProIleAlaTyrlUHiePheLeuIleArgGln 
ThrValCluTbrAapTbrClyProClyArg 

CAACCGTCCACACACATACTGCCCCTGGCCCATAGCATATATACATTTCCTCATCCCCCA 
• • • « 8400 

AlaAtpSerProLeuAtpClnTbrlleClnBii LauG InG ly LauTbr I 1 eC InG luLeu 

LeuHeArgLeuLeuThrArgLenTyrSerlleCyaArgAapLeuLeuSerArgSerPbe 
CCTGATTCGCCTCTTGACCACACTATACACCATCTCCACCGACTTACTATCCACGACCTT 

ProAtpProProTbrHiaLeuProCluSarClnArgLeuAlaGluTbr 

LeuTbrLeuCinLeuIleTyrClnAanLeuArgAipTrpLeuArgLeuArgThrAlaPbe 
CCTGACCCTCCAACTCATCTACCAGAATCTCAGAGACTGGCTGAGACTTAGAACAGCCTT 

8500 

UuCinTyrGiyCyeCiuTrpHeGinGluAlaPbeClnAlaAlaAlaArgAlaThrArg 
HetGlyAleSerCiySerLyaLyeBiaSerArgProProArgGlyLeuCUClu 
CTTCCAATATGGGTCCCACTCCATCCAACAAGCATTCCAGGCCGCCCCGACCCCTACAAC 

(f ig.lA-suite 7) 
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• • • • • • 
CluThrLeuAUClyAUCyiArgClyLeutrpArgVtlLeuCluArgllcClyArgCly 

ArgLeuLeuArgAlaArgAlaGlyAlaCyiClyGlyTyrTrpAenCluSerClyGlyClu 
ACACACTCTTGCCCCCCCCTCCACCCCCTTCTCCAGCGTATTCCAACCAATCCCCACCGC 

• 8600 • • • « 
IleLeuAlaValProArgArglleArgGloClyAlaCluIleAlaLeuLeu 

TyrSerArgPhcGlnGluGlyS€rA8pArgCluGlnLyiSer?roSerCyiCluGlyArg 
AATACTCGCGGTTCCAAGAACGATCACACAGGGAGCAGAAATCCCCCTCCTCTCAGGGAC 

8700 

ClnTyrClnClnClyAipPtaeHetAanThrProTrpLyaAapProAlaAlaCluArgClu 
GGC AG TAT CAGCACGCAGACTTTATGAATACTCCATGGAACG AC CCAGCAGC AC AA AG GG 

• • • * • • 
LyaAanLeuTyrArgGlnC InAanHetAt pAt p Va UtpSer AapAapAapAl pG loVa I 

ACAAAAATTTCTACACCCAACAAAATATCCATCATCTACATTCACATCATCATCACCAAG 

• . . 8800 

ArgValSerVa IThrProLya Va IP roteuArgProMc t Thr HiaArgLeuAlal leAap 
TAAGACTTTCTGTCACACCAAAAGTACCACTAAGACCAATGACACATAGATTGGCAATAG 

• • • • a « 

HetSerHiaLeuI ULytThrArgG lyClyLeuCluGlyHetPheTyrSerCluArgArg 
ATATGTCACATTTAATAAAAACAAGCCCGGGACTGCAACCCATGTTTTACAGTGAAAGAA 
8900 . 

HisLysIl eLeuAiD X leTy r LeuG luLyaG luG luGly 11*11 eAlaAspTrpGloAsn 
CACATAAAATCTTAAATATATACTTACAAAACCAAGAACCGATAATTGCAGATTGCCACA 

9000 

TyrThrHiiGlyProCly Va UrgTy rProMe tPhePhaC lyT rpLcuTrpLyaLeuVa 1 
ACTACACTCATCCCCCACGAGTAAGATACCCAATGTTCTTTGGGTGCCTATCCAAGCTAG 

FroValAapValProGlDCluGlyGluAtpThrGluThrBitCyaLeuValUiaProAla 
TACCAGTAGATGTCCCACAAGAAGGGGAGGACACTGAGACTCACTCCTTAGTA CATCCAG 

9100 

GlnThrSerLyaPbeAspAapProHitGlyCluThrLeuValTrpG luPbeA«pProL«u 
CACAAACAAGCAACTTTCATCACCCCCATCCCCAGACACTAGTCTGCGACTTTCATCCCT 

LeuAlaTyrSerTyrCluAlaPheneArgTyrProCluCluPhcClyHiaLyiSerCly 
TCCTGGCTTATAGTTACCAGGCTTTTATTCCGTACCCAGACCAATTTCGGCACAACTCAC 
9200 . 

LeuProGluG luG luTrpLya AlaArgLeuLya A laArgG lyl leProFheSer 
GCCTGCCAGAGGAAGAGTGGAAGGCGAGACTGAAAGCAAGACCAATACCATTTAGTTAAA 

• • « . • 9300 
CACAGGAACAGCTATACTTGGTCACGGCAGGAACTAACTAACAGAAACACCTGACACTGC 

• • • • ♦ ♦ 
AGGGACTTTCCAGAAGGGGCTGTAACCAAGGGAGGGACATGGGAGGAGCTGGTGGGGAAC 

• . 9400 
CCCCTCATATTCTCTGTATAAATATACCCGCTAGCTTCCATTCTACTTCGCTCGCTCTGC 

• • • • • • 
GGAGAGGCTGGCAGATTGAGCCCTGGGAGGTTCTCTCCAGCAGTAGCAGGTAGAGCCTGG 

i 9500 * - 

CTCTTCCCTCCTAGACTCTCACCACCACTTGCCCCGTGCTCCCCACACGCCCCCACCCTT 

• • . • 9600 
CCTTGCTTAAAAACCTCCTTAATAAAGCTGCCAGTTAGAAGCA 



(f lg.lA-auite 8) 



32 



EP 0 750 041 A2 



FIG IB 



AGTCGCTCTGCCGACAGGCTCGCAGATTGAGCCCTtGGACGTTCTCTCCAGCACTAGCAG 

CTACACCCTCCCTCTTCCCTCCTACACTCTCACCACCACTTCCCCCCTCCTCCCCACACT 

• • • 100 • 
CCCTCCACCCT7CCTTCCTTAAACACCTCTTCAATAAACCTCCCATTTACAACTAACCTA 

CTCTCTCTTCCCATCTCTCCTACTCCCCCCCTCCTCAACTCCCTACTCCCTAATAAAAAC 
200 

ACCCTCCTCTCTTACCACCCTGCTCTCTTACCACCCTTTCTCCTTTCCCAAACCCAACCA 

• • • • 300 
CCAAAATCCCTACCACATTCCCCCCCCAACACCCACTTCAACCACACTCACACACTCCTC 

ACTACCCCTCACTCAACCCACTAACCCCCCCACCAACCAACCACCACCCACTCCTCCTAC 

• 400 * . 

AAACGCGCCCGTCCCTACCACACCCCCTCACCACCCCCCACACAACACCCCTCCTCCTTC 

♦ • • • 
CAGGTAAGTGCAACACA AAAAGGAA ATAGCTGTCTTTTATCC AGGAAGGGAT AATAAGAT 

'00 ... 

GAGDnETGLY AL AARGASNSERYALLEUSERGLYL YSL YSAL AASPGLUL EUGLU 
ACACTGGGAGATGGGCGCGAGAAACTCCCTCTTGTCAGGCAAGAAAGCAGATGAATTAGA 

L YS IL EARGLEUARC PROGL YGLYLYSL YSL YST YRME TLEUL YSHI S VAL VAL TR PAL A 

AAAAATTAGACT acg acccggcggaaagaaa aagtac atgttgaagcatgt agtatgggc 

alaasngluleua5p argphe gl yl eualagluserleuleugluasnl ysglugl yc ys 
agcaaatgaattagatagatttggattagcagaaagcctcttggagaacaaagaaccatc 

• • 700 • 
CINLVSILELEUSERYALLEUALAPROLEUVALPROTHRCLVSERCLUASNLEULYSSER 

TCAAAAAATACTTTCGCICTTAGCTCCATTACTGCCAACAGGCTCAGAAAATTTAAAAAG 

LEUTYRASNTHRYALCY5VAL ILETRPCYS ILEHI SALAGLUGLUL YS VALL YSHI STHR 

CCTTTATAATACTGTCTCCGTCATCTGGTGC ATTCACGCAGAAGAC A AAGTGAAACACAC 
• *00 • • . 

CLUGLUALALYSCLN I LEVAL CLNARCHISLEUVALKETGLUTHRGL YTHRALAGLUTHR 
TGAGGAAGCAAAACACATAGTGCACACACACCTAGTGATGCAAACAGGAACAGCACAAAC 

STMR SCR AR 0 RRO TMRALAPRO PMC SERGLYARCGLYGL YASNT YRPROVAL 
TATGCCAAAAACAACTAGACCAACAGCACCATTTAGCGCCAGACGAGGAAATTACCCAGT 

ACAACAAATAGGTGGTAACTAT ACCCACC7 ACCATTAAGCCCCAGAACATTAAATGCCTG 
■ • • 1000 

S^UILEGLUGLUL YS LYSPHEGL YALAGLUVAL VAL SERGL YPHEGLNALALEU 
GGTAAAATTAATAGACGAGAAGAAATTTCCAGCAGAAGTAGTCTCACGATTTCACCCACT 

SERGLUCLYCYSLEUPROTYRASPILEASNGLNnETLEOASNCYSVALGLYASPHlSGLN 

CTCAGAACGCTGCCTCCCCTAYGACATTAATCAGATCTTAAATTGTGTGCCACACCATCA 
• 1100 • • - 

ACCGGCT ATGCAGATCATCAGAGATATTATA AATGAGGAGGCTGCAGATTGGCACTTCCA 

CCACCC ACA ACAAGCTCC ACAACA AGGACAGCTTAGCGAGCCCTCAGGATCAGATATTGC 

*!:!™?™ R5ERTHR ™^^ 

AGCAACAACTAGTACACTACAAGAACAAATCC AGTGGATGTACAGACA AC AGAACCCC AT 

1300 

Fin. iR- 
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PROYALClYASNILETYRARCARCTRPlLfCLNLf UCLYLEUCLNLYSCYSYALARCntT 
ACCAG7ACCCAACA7 77ACAGGAGA7CGA7CCAAC7GCCC7 7CCAAAAATCTGTCACAA7 

7YRA5*PRO7HRASN!LELEUASPVALLYSGLNGLYPR0LYSGLUPR0PHEGl*lSER7YR 
CTATAACCCAACAAACATTCTACATCTAAAACAACCCCCAAAACACCC ATTTCACACCTA 
1*00 . . , 

VALA5PARC PHETYRLYS SERLEU ARC AL AGLUGIN7 HRASPPROAL A V ALL Y $ ASN7RP 

tctacacaggytctacaaaagtttaacagcacaacaaacagayccagcagtaaagaattc 

1500 

HE TTHRGLNTHRLEULEU ILEGLNA5N ALAA5NPR0 A 5PC YSL YSLEUY ALL E UL YSGL Y 
CATC ACTCAAACACTCCTOATTC AAAATOCT AACCC AC ATTCCAAGCT ACTCC7GAACCC 

L EUCL YTHRASNPROTHRLEUGLUCLUrtETL EUTHRAL AC YSCL WCLY V AL GLYCLYPRO 

CCTCCCTACCAATCCCACCCTACAACAAATCCTCACCCCCTCTCAACCACTACCCCCCCC 
• • 1600 . . 

GLYCLNLY5ALAARCLEUMETALACLUALALEULYSCLUALAL6UALAPR0ALAPR0ILE 
ACCACACAACCCTACATTAATCCCACAACCCCTCAAACACCCCCTCCCACCACCCCCAAT 

• • • • • • 

POLVALLEUGLULEUTRP 
PROPHEALAALAALAGLNC LNL YS CLYP RO ARCL YSPRO ILEL YSCYSTRP A5NCYSCLY 
CCCTTTTGCAGCAGCCC AACAGA AGGGACC A AGAAACCCAATTAACTGTTCCAATTGTGC 
1700 .... 
GLUCLY ARGTHRLEUCYSLYS AL AHE TGL NSERPROLYSLYSTHRGL YflETLEUGLUHET 

L YSCLUGLYH I S SER ALAARGGLNC YS ARGALAPROARGARGGLNGLYCYSTRPL YSCYS 
GAAGGAAGGACACTCTGCAAGCCAATGCACAGCCCC AAGAAGAC AGOGATGC TGGAAATG 

• • • . iaoo 

T RPL YS A5NGLYPR0C YSTYRCLYCLNMC TPROC VSGLNTHRGL YGCY PH EP HE ARC PRO 

CLYLYSAETASPHISVALHETALAL YSCYS PROAS WARGGINALAGL YPHELE UCLYLEU 
TGGA AAAATGGACC ATG7 TATCGCC AAATGCCC A AACAGACACGCCCG TT TT T TAGGCCT 

TRP PROLEUCLYL YSGLU AL APROCLNPHE P ROH ISGLYSERSERALASERCLYALAASP 
CLYPROTRPGL YLYSL YSPRO ARC ASH PHE PROHET ALAGLNVALH I S CLNCLYLEU7HR 

TGCCCCTTGGCCAAAGAAGCCCCCCAATTTCCCC ATGGCTCA AGTGCATC AGGGGCTGAC 

• 1900 ♦ . 

ALA A5NC YS 5ERPROARGARGTHR5ERCYSGLY SERAL ALYSGLUL EUHI SAL ALEUCL Y 
PR0THRALAPROPR0CLUCLUPROALAVALASPLEULCULY$ASNTYR«€TM!SLEUCLY 

CCC A ACTGCTCCCCCACA ACAACC AGCTCTGGATCTGCT AAAGAAC7 ACATGCACTTCCG 

0LNALAALAGLUARGLY5GLNARGCLUAL ALEUGLNCL YGLY ASPARCGL YPHEAL AAL A 

L YSCLNGLNARGCLUSERARCGL YL YS PROTYRL YSCLUVAL THRCLUASPLEUL EUHI S 
CAAGCAGCACAGAGAAAGCAGAGGGAAGCCTT ACA AGG AGGTCACAGAGGAT77GC7GCA 

• 2000 • 

PROCLNPHE SERLEUTRP ARGARG PROVALY ALTHftAL AH I S 1LEGLUCL YGLNPROVAL 
LEUASNSERLEUPHECL YGLYASPGLN% 

CCTCAATTCTCTC7TTGGAGCACACCAGTACTCAC7GCTCAT A7TCAAGGAC AGCCTGTA 

• • • • • 2100 
CLUYALLEULEUASPTHRGLYALAAS PASPSER ILEVAtTHRGL YILECLULEUCLYPRO 
CAAGTATTATTAGATACACGGGCTCAYGATTCTATTGT AAC ACGAATAGAG7TAGGTCCA 

H I STYRTKRPRQL YS ILE VALGLYGLY1LECLYCLYPHEILEASNTHRLYSGLUTYRLYS 
CATT ATACCCCAAA AATAGT ACGAGCAATAGCAGGTTTTATTAATACT AAAG AATACA AA 

2200 . # 

*5NYALGLUI LECLUVALLEUGLYL YSARCILELYSGLYTHR ILEMETTHRGLYASPTHR 
AATGTAG AAA7 AGAAGTTTT AGGC AAAAGGATTAAAGGGACAATCATG AC AGGCGACACC 

PROILEASNILEPHE GL YARGA SNCEULEUTHRALALEUGLYHE TSE RLEUA5NLEUPR0 
CCG ATT A AC ATTT7TGGT AGAAATTT ACT AACAGCTCTCGGGA7CTCTCT AAA7CT7CCC 

• 2300 . m # ^ 

I LE ALAL YS VALCLUPRO VALL YS SE RP ROL E UL YSPROGL YL YSA SP GL YPROLYSL EU 
ATACCT AAGG7 AGACCCTGT AAAGTCGCCCTT AAAGCC AGGAAAGGATGG ACCAAAATTG 

• • • • » £400 
LYSCLNTRP PROLEUSERLYSGLULYS ILE VALAbALEUARCCLUlLECYSGLULYSWET 
AACCAGTCGCCATTATCAAAAGAAAACATAGTTGCATT AAGAGAAATCTGTGAAAAGATG 
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CLULYSASPCLYCLNLEUCLUCLUALAPR0PR0TMRASNPROTYRASNTHRPROTHRPM6 
CAAAAAGATGGTCACTTGGAGGAAGCTCCCCCCACCAATCCATATAACACCCCCACATTT 

• • • 2500 m « 

ALAILELYSLYSLYSASPLVSASNLYSTRPARGMETLEUILEASPPHEARCGLULEUASN 
CCTATAAACAAAAACCATAAAAACAAATCCACAATCCTCATACATTTTACCCAACTAAAT 

• ••••• 
ARCVALTMRCLNASPPKETHRCLUYALCLNLEUCLYILEPROMISPROALACLYLEUALA 
ACCCTCACTCAAGACTTTACCCAACTCCAATTAGCAATACCACACCCTCCACCACTACCA 

2600 . 

LYSARCLYSARGILeTMRVALLEUASPlLEGLYASPALATYRPHeSERlLEPROLEUASP 

aaaacgaaaaggattacagtactggatataggtgacgcatatttctctatacctctagat 

• • • • 2700 

gluglupheargclnt yrthral aphe thrle uprose rvalas nasnalagluprogl y 
caacaatttaggcactacactgcctttactttaccatcactaaataatgcagacccacga 

•••••• 

LYSARCTYRILE TYRL Y$ VALLEUPROGLNCLYTRPLYSGLY SERPROAL Al LEPHEGLN 

aaacgatacatttataaggttctgcctcagcgatggaaggggtcaccagccatcttccaa 

• • .26 00 • , 

tyrthrhetarghisvalleugluprophearglysalaasnproaspvalthrleuval 
tacactatgagacatgtgctacaacccttcaggaaggcaaatccagatctgaccttagtc 
•••••• 

gl nt yrketa5 p asp ! leleulle ala sera sparcthraspleugluml s as parc-vax 
Cagtatatccatcacatcttaatagctagtgacaggacagacctgcaacatgacagggta 

2900 . 

VALLEUCLMLEULYSGLULEULEUASNSERtLEGLYPHESERSERPROGLUGLUtYSPHE 
GTTTTACAGTTAAAAGAACTCTTAAATAGCATAGGGTTTTCATCCCCACAACAGAAATTC 

• • • • « 9000 
CLNL YS ASPPROPROPHE CLNTRPHETGLYT YRCLULEUTRP PROTHRL YSTRPL YSLEU 
CA AAAAGATCCCCC ATTTCAATGGATGGGGT ACG AAYTGTGGCCGACA AAATGGAAGTTG 

•••••• 

CLNL YSlLEGLUL EUPROGLNARGGLU THRTRPTH RVALAS HASP I LE GL NL YSLEUVAL 
C A AA ACATAC AGTTGCC ACA AAGAGAGACCTCGACAGTGAATGATATACA G AAGTTAGTA 

3100 

CL YVAtLEUASNTRP ALA ALACLN! LET YRPROGLY IL ELYSTH RL YSH I SL EUCYSARC 
CGAGTATTAAATTGGGCAGCTCAAATTTATCC AGGTAT AAAAACCA AACATCTCTGTAGC 

LEUILEARGGLYLYSHETTHRLEUTMRGLUCLUVALCLNTRPTHRCLUHETALAGLUALA 

TTAATT AGAGG AAAAATGACTCT AACAGAGG AAGTTCAGTGGACTGAGATGGC AGAACCA 
3200 # 

CLUTYRCLUGLUASNLYSILEILCLEUSERGLNGLUGLNGLUGLYCYSTYRTYRGLNGLU 
CA AT ATGAGG AAAAT AAAATAATTCT CAGTC AGGAAC AAGAAGGATCTTATTACC AAGAA 

• • • • . 3300 
5ERLYSPR0LEUCLUALATHRVALILELY5SERGLNASPASNGLNTRP5ERTVRLY$ILE 
AGCAAGCC ATTAGAAGCCACGGTGATAAAGAGTCAGGACAATCAGTGGTCTTATAAAATT 

!!? ALY$ILILY$A$NTHRMISTMR 
CACC AAGAAGACAAAATACTGAAAGTAGG AA AATTTGCAAAG ATAAAGAATACACATACC 
• . 3400 . , 

ASNGLYVALARGLEULEUALAHI S VALILEGLNL YS 1 LEGL YL YSGLUALA ILE VAL ILE 
AATCCACTTAGACTATTACCACATCTAATACAGAAAATAGCAAACGAAGCAATACTGATC 

TRPCLYGLNVALPROLYS PHEH ISLE UPROYALGLULY S ASP YALTRPCLUGLNTRPTRP 
TGGCGACACCTCCC A AAATTCCACTTACCAGTTGAGAAGGATGTATGGGAAC AGTGGTGG 

• 3500 • • , , 

THRA SPT YRTRPCLNVALTHRTRP ILE PROGLUTRPASPPHE ILESERTHRPRO PRQLEU 
AC AGACT ATTGGCAGGTAACCTGGAT ACCGGAATGGCATTTCATCTCAACACC ACC ATTA 

• • • • • 3600 
VALARGLEUVALPHEASNLE UV ALL YS A5PPR0ILECLUGL YCLUGLUTHRTYRTYRVAL 
GTAACATTAGTCTTCAATCT AGTC AAGGACCCTATAGAGGGACAAGAAACCT ATTATGTA 

CATCCATCATCTAGTAAACAGTCAAAAGAAGCAAAAGCACGATATATCACAGACAGGGGC 
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• • • 3700 « , 
LYSASPLYSYALLYSVALLEUGLUGLNTHRTHRA5NGL*GLNALAGLULEUGLUALAPME 
AAA&ACAAGGTAAAACTGTT AGAACAGACT ACT A AT C A AC A A GC AC A A T T GG A A GC A T T T 

LEUKETALAUUTHRA5P SE RGL Y PR OL Y S A L AA SN I L E ILE VAL AS P SE RGLNT Y RVAL 
CTCATCCCATTCACACAC TC AGGGCC A AAGGC AAATAT TAT AGT AGAC TC AC AATATGTT 
38 00 • « • . 

*E TGL VILE ILE THRGLYCYSPROTHRGL USE RGLUSE RARGLEUV ALAS NGLN ILE ILE 
ATGGGAATAAT AACAGG ATGCCCT AC AG AAT C ACAGAGCAGGCT AGTT AACC AAATAA TA 

• • • • « 3900 
GLUGtU«€TILELYSLYSTHRGLUlLETYRVALALATRPVALPROALAHlSL YSGLYILE 
GAAG AAATGATCA AA AAG AC AGAAAT TT ATCTGGC ATGGGTACC AGCACACA AAGCT ATA 

GLYGL YASNCLNGLU ILE AS PHI SLEUVALSERCLNGLYILEARGCLNVALL EUPH EL EU 
GGAGGA A ACC AACA AAT AGACC ACCT AG TTAGTCA AGCGATTACAC AAGTTC TCTTCTTC 

• • • 4000 • . 
GLUL YS ILEGLUPROAL AGLNGLUGLUH 1 5 SE RLYSTY RHI S5E RASN ILEL YSGLULEU 
CAAAAGATAGAGCC AGCACA ACAACAAC AT AGTAAATACC ATAGTAAC AT AAAAGAATTG 

VALPHE LYSPHE GLYLE UPROAR GL EUY ALA LAL YSGL N I LE VAL ASP THRC YSASPLYS 
GT ATTCA AATTT GGATT ACCCAGACT AG TGGCCAAACAGATAGT AGACACATGTGATAAA 
4100 .... 
CYSMI 5 GLNL Y5 GL YGLUAL AILEM15GLYGLNVALAS NSE ft ASPL EUGL YTHRTRPGLN 
TGTC ATC A AAA AGG AG A AGCTAT ACATCGGC AGGT AAA TT CAGACCTAJSGGACTTGGC AA 

. • 4?00 

WETA5PCYSTHRHI SLE UCLUCL YL YS ILEVALILE VALALA VALHIS VAL ALA SERGLY 
ATGGATTGTACCCATCTAGAGGCAAAAATAGTCATACTTGCAGTACATGTACCTAGTGGA 

PHE ILE glual agluval ileproglngluthrglyar GGLNTHRALALEUPHELEULEU 
TTCATAGAACCAGAAGTAATTCCACA AGAAACAGGAAGAC AGACAGCACTATTTCTGTTA 
*.. 4300 • • 

LYSLEUALASERARGTRP PROI LETHRHI SLEUHI STHRASP ASNGLYALA ASNPHE ALA 
AAATTGGCAAGCAGATCGCCTATTACACATCTGCACACAGATAATGCTGCTAACTTTGCT 

SERGLNCLUVALL YSHETVALALATRPTRPALACLY ILEGLUHISTHRPHEGL YVAL PRO 

tcgcaagaactaaagatcgttgcatggtgggcaggcatagaccacacctttccggtacca 

*400 . . . . 

T YRASNPROCLNSERGLNGLYVAL VALGLUALAHE TAS NH I SH I SLEULYS A SNGLH ILE 

tacaatccacagagtcaggcagtagtgcaagcaatgaatcaccacctcaaaaatcaaata 

• • • . 4500 

aspargilearggiuglnalaasnservalcluthrileyalleuhetalayalhiscys 
catacaatcagcgaacaagcaaattcactagaaaccatagtattaatgccagttcattcc 

«ETASNPHELYSARGARGGLYCLY1LECLYASP«ETTHRPR0ALAGLUARCLEU!LEASN 

atcaattttaaaacaaggggacgaatacggcatatgactccagcagaaacattaattaac 

• • • 4600 . « 
NETILETHRT HRGLUGL*(GLU1LE GLNPHEGLNGLNSERLYSASNSERLYSPHEL YSASN 
AT GA TC ACT AC AGAACA AC AAATACA ATTTC AICA ATC A AAAAACTCA A AAT TTA A AAAT 

^HEARG YALTYRTYRARGGLUGLYARGASPGLNLEUTRPLYSGL YPROGL YCLULEULCU 
TTTCGGGTCT ATTACAGAG AACGCACAGATCAGCTGTCCAACCGACCCCGIG AGCTATTC 
*700 .... 
T R PL YS GL YGLUGLY ALA VAL 1LELEULYS VALCLYTH RASP ILEL YS VAL YAL PRO ARG 
TGGA AAGGGG AAGGAGCAGTCATCTTAAAGGT AGG AAC AGACATTAAGGT AGT ACCCACG 

• • • • • 4800 
ARGLYS ALAL YS ILE ILE LYSASPTYRGLYGL YGLYLVSGLUHE TASP SE R SERSE RNI S 

Q«ETCLUGLUGLULYSARGTRPlLEVALVALPROTHR 
AGA A AGGCTAAAATTATC AAAGATTATGCAG GAGGAAAAG AGATGGATAGTAGTTCCCAC 

rtETCLUASPTHRGLYGLU AL AARGGLUV AL AL A 

TRPARGILEPROGLUARGLEUGLUARGTRPH IS SERXEU ILEL YSTYRLEULYSTYRLYS 
ATGCAGGATACCGGAGAGCCTAGAGAGGTCGCATAGCCTC ATAAAATATTTGAAATATAA 

. 4900 

itt.lE-i»uit# 3 ) 
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tmrlysaspleuglnly5alacy5tyrvalprohi5mislysvalclytrpalatrptrp 
aactaaacatctacaaaaggcttgctatgtgccccatcaiaagcucgatgcgcatcgtg 

tmrcy5serarcvalilephepr0leuclncluclyserhisleucluyalclnclytyr 
cacctccaccacactaatcttcccactacaccaaccaacccatttacaactacaagccta 

5000 . . . . 

TRPASNLEUTHRPROCLUARCCIVTRPLEUSERTHRTYRALAVAL AR C I LE TMR TRPT Y R 
TTGG AATT TGAC ACC ACAAACACCCTCCCTCACTACTTATCCACTC ACCA T A ACCTCC TA 

• • • • • 5100 
SERLYSASPPMETRPTHRA5PVALTHRPROCLUTYRALAA5PUELEULEUMI5 5ERTHR 

CTCAAACCACTTTTCCACACATCTAACACCACAATATCCACATATTTTACTCCATACCAC 

T YRPHE PROCYSPMETHRAL ACL YCLUV ALARCARCAL A ILEARCCL YGLUARGL EULEU 

ttatttcccttgctttacagcgggacaagtcagaagggccatcaggccacaacgactgct 

• • • 52 00 « • 
SE RCYSC Y SARGPHE PROAft GALAHl SL YSHISGLNV ALPRO SERLE UGLNT YRLEUAL A 

GTCTTGCTCCAGGTTCCCAAGAGCTCATAAGCACCACGTACCAAGTCTACAGTACTTAGC 

LEUARCVAtVALSERHISVALARGSERGLNGLYGLUASNPROTHRTRPLYSGLNTRPARG 

XrtETSERASPPROARCCLUARGlLEPROPROGLYASNSERGLYGLU 

AC TGAGAGTAGT AAGTCATGTC AGATCCCAGGGAGAGAATCCCACCTGGAAAC ACTGGAG 
5300 - 

ARGASPASNARGAR GSERLEUARG YAL ALAL YSGLNASNSERARGGL YA5PL YSGLNARG 
CL UTHR ILECL YGLUALAP KEGLUTRPL6UA SNARGTHRVALGLUGLUlLE ASNARGGLU 
AACAGACAATACCAGAAGCCTTCGAGTGCCTAAACAGAACAGTAGAGGAGATAAACACAC 
• • • • 5*00 

CLY GLYLYS PRO PROTHRGLUCL YAL AASNPHf PROGLYLE UALALY SVALLE UGLY ILE 
AL AVAL ASNH ISLE UPROAR CGLULEUILEP HE GLNVALTRPGL NARGSERTRPGLUT YR 
AGGCGGTAAACC ACCTACCG AGGGACCT AATTTTCC AGGTTTGGCAAAGGTC TTGGGA AT 
LEUAL A •••••• 

TRPHISASPGLUGLNGLYMETSERCLNSERTYRTHRLYSTYRARCTYRLEUCYSLEUILE 
ACTGGC ATGATGAACA AGGG ATGTC ACAAAGC TATACA AAATACAGAT ACTTCTGTTTAA 

5500 

GLNLYSALALEUPHEflETMISCYSLYSLYSGLYCYSARGCYSLEUGLYGLUGLYHISCtY 
TACAAAAGGCTTTATTTATGCATTGC AAG AAAGGCTGTAGATGTCT AGGGGAAGGACACC 

• • • • • • 

ALAGLVGLYTRPARGPROCLYPROPROPROPROPROPROPROCLYLEUALA R NETCLU 

CGGCAGGGGGATGGAGACCAGGACCTCCTCCTCCTCCCCCTCCAGGACTAGC ATAAATGO 
5600 , 

A4 £"1 R J PR °' R °^^^ 

AACAAACACCTCCACAAAATCAAGGCCC AC AAAGCGAACC ATGGGATGACTGGGTACTGC 

• • • • • 5700 

™"! ULYSCLUUEULTSCLUCL0 ^^^ 
AACTTCTGAAAGAACTCAAAGAAGAACCTTTAAAGCATTTTGATCCTCGGCTTCTAACCC 

• 

. w.*^... TAT1 ^TCLUTHRPROLEUARCGLUGLNGLUASNSER 

CACT TCCT AATC ATATCT AT AATAGACATGGAGACACCCTTGAGCGAGCAGG AGAACTCA 

• ■ « 5600 « . 
LE ^V. S P SERASNCLOARCSC,lSERTVRIL6$fR6 LUALAALAALAALAILEPR0GLU 

ARGItELEUCtNARGALALEUPHEREHISPHEARGSERGLYCYSSERHISSERARGILE 
TTAGAATCCTCC AACGAGCGCTCTTCATACATTTCAGAAGCGGCTCCAGCCATTCC AGAA 

3ERALAASNLEUGL YCLUGL UI LELEUSERCLNL EUTYRARG PROLE UGL UAL AC YSTYR 

TCGGCCAACCTGGGGG AGGAAATCCTCTCTCAACTATACCCCCCTCTAGA AGCATGCTAT 
5900 • . . . 

ASNTHRC VSTYRC YSLYSLYSC YSC YST YRH I SCYSGLMPHECYSPHELEUL YSLYSGLY 
AACACATCCTATTCCAAAAAGTGTTCCTACCATTCCCACTTTTGTTTTCTTAAAAAGGGC 

LEUGLYILESERTYRGLULY55ERHI SARGA RGARGARGTHRPROL YSL Y5ALALYS ALA 
ARTiHETARGSERHI STHRGL YGLUGLUGLULEUARG ARGARCL EUARCLEU 

(f ig.lB-auite 4) 
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1TCGGGATAAGTT ATGACAACTCACACACGAG AAGA AGAACTCCC* AC AAGCCT AAGCCT 

ASNTHRSEftSEftALASERASNCLU 
ILEHISLFULEUHISGLHIHRSERLYSTTRCLVLEuSERTRPLYSURALAALATYRARC 
EKV RETCLYCYSLfUGLf ASNGLNLf ULEUlLf ALA 
AATACATCTTCTGCATCAAACGAGT A AC T A T CCGT TC T C T T GG A A A TC AGC TCC T T AT C C 

• « • 6100 « . 
H ISLE ULEU 

ILECrSSERLYSCYSLEUTRPlLEILECYSILEGCNTYRVALTHRYALPHETYRGLrVAL 
CCATCTGCTCTAACTCTCTATGCATTATTTCTATTCAATATCTCACAGTCT1TTATGCTC 

• • * • • • 
PR0ALATRPARGASNALATHRILEPROLEUPHECYSALATHRLYSASNARGA5PTHBTRP 

T ACC AGCTTCGAGGA ATGCGAC AATTCCCCT C TTCt GT GC A AC C A AG A AT AG GC AT AC TT 

• 6200 t • « • 
GLYTHRTHRGLNCYSLCUPROASPASNASPASPTYRSERGLULEUALALEUASNVALlHR 

CGGCAACAACTCAGTGCCTACCAGATAATGATGATTATTCACAATTCGCCCTTAATGTTA 

• • • « . 6300 
CIUSERPHEA?PALATRPGLUASNTHRVALTKRGLUGLNALAKEGLUASPVALTRPCLN 

C AGA AAGCTTT GATGCTTGGGAGAAT ACAGT C AC AGAACAGGCAAT AGAGGACCT ATCGC 

LEUPHEGLUTHRSER ! L€LY SPROCYS VALL YSLEU SERPROLC UCYS ILE THRAE TARC 
AACTCTTTGAGACCTCA ATA AAGCCTTGTGT A AAAT7 ATCCCCATT ATGCATTACT ATGA 

• • • 6400 • • 
CYSASNLVSSERGLUTHRASPCYSTRPGLVLEUTHRLYSSERSERTHRTMRTHRALASER 

GATGCA AT AAAAGTCACACAGATAAATGGGG ATTGAC A AAATCATCA ACAAC AAC AGCAT 

THRTHRTHRTHRTHRTHRALALYSSERVALGLUTHRARGASPILEYALASNCLUTKRSER 
C A ACAACAACAACA AC AACAGCA AAATCAGT AGACACA AGAGAC ATAGTCAATCAGAC Y A 

• 6500 • • « • 
PROC YSYALVALH! SASP ASNCYS THRGLYLEUGLUGLNGLUPROHE T ILE SERCY5LYS 

GTCCTTGTGTAGTTCATCAT AATT GC AC AGGCTTGGAACA AG ACCC AATGAT AAGC TGTA 

• • ■ • • 6600 
PHEA5NMETTHRGLYL EULY S ARC ASP LYSL YSLYS GLUT YRASNCLUTHRTRPTYRSER 

AATTCAAC ATGACAGGGT T AAAAAGAGAC AAC AAAAAGGAGT ACAATGAAAC TTGCT ACT 

ALAASPLEUVALCY$GLUGLNGLVA5N5ERTHRGLYA5NGLU5ERARGCYSTYRrtETASN 
CTGC AGATCTGGTTTGTGAACA ACGCAAT AGCACTGCTAATGAAACT AGATGTT AC ATGA 

6700 

HI SC YS ASNTHRSERV AL IL EGLNGLUCYSCYSASPLYS A$PTrRTftPA$P ALA lLEARG 
AT CACTGT AATACTTCTGTT ATCC AAGACTG f TGTG AC A AAGATTATTGGCATGCT ATTA 

CYSARGTYRC YSALAPROPROGLYTYRAL ALEULEUARGCYSASNASPTHRASNTYRSEt 
CATGTAGATATTGTGC ACCTCC AGGTTATGCTTTGCTT AGATGT AATGACAC AAATT ATT 
6800 , 

GL YPHEHETPROASNCYS SE RL YSVAL VALVAL SE R SERCYSTH RARGnE THE TGLUTHR 
CAGGCTTTATGCCT AACTGTTCT AACGTAGT GCTCTCTTC ATGCAC AAGGATGATGGAGA 

• • • • • 6900 
CLNTHRSERTHRTRPPKE ARCPHEASNGLYTHRARGALACLUASNARCTHRTYRILETYR 

CACAGACTTCTACTTCCTTTCCCTTTAATCCAACTAGACC AC AAAATACA ACCT ATATTT 

TRPHISCLYARGA5PASNARGTHRILEILESERLEUA5NLY5HI5TYRA5NLEUTHRHET 
ACTCGCATGGTAGAGATAAT AGGACT AT AATT AGTC T AAATAAGCATT AT AATCTA ACAA 

• • • 7000 • « 
LYSCYSARGARG PROCLY ASNLYSTHRVALLEUPROVAL THR1 LEHET $E RALALEUV AL 

T G AAATCT ACAAGACC AGGA AAT AAGAC AGTTTT ACC ACTCACC ATTATGTCTCCATTGC 

PHEH 1 3 3ERGLNPR0V AL ASNCLUARC PROLYSGLNALATRPCYSARCPHE GL YGL YA$N 
YTTTCC ACTCACAACC AG TCAATCACAGGCC AAAGCACGCATGGTGTACGTTTCGAGGAA 

• 7100 • » • . 
TRPLYSGLUALAILELYS CL UV ALL YSGL NTH RILE VALL Y SHI SPRQARGT YRTHRCLY 

ATTGGAAGGACGCAAT AA AAGAGGTGAAGCAGACCATTCTCAAACATCCC AGCTAT ACTG 

• ♦ • • • 7200 
THRA5NA5NTMRASPLYSILEASNLEUTHRALAPROARGGLYGLYASPPROCLUVALTHR 

CA ACTAACAATACTGAT AAAATCA ATTTGACCGCTCCT ACACC AGCAGATCCGG AAGTTA 
(f ig.lB-suite 5^ 
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PMEnETTRPTHRASNCYSARCCLYCLUPHELEUTYRCYSLY5HETA5NTRPPH€LEUASN 
CCTTCATCTGCACAAATTCCACACCACACTTTCTCTACTCTAAAATCAATTCCTTTCTiA 

7300 

TR PV ALCLUASP ARCSERLE UT HRTHRCt NLY 5 PROLYSGLUARGH ! SLY SARCASNT YR 
ATTCCGTACAACATACCACTCT A ACT ACCCAOAACCC A AACCAACCCC AT AAAACCAATT 

valprocyshisileargglnileileasnthrtrp J^J^ J* J? IT? y I yr 

ACCTACCATCTCATATTACACAAATAATCAACACTTCCCATAAACTACCCAAAAATCTTT 

. 7400 ••**«. 

LEUPROPROARCCLUCLYASPLEUTHRCYSASNSERTMRVALTHRSERLEUILEALAASN 

ATTTCCCTCCAACACACCGACACCTCACCTCTAACTCCACACTCACCACTCTCATACCAA 

7500 

ILEASNTRPTMRASPCLYASNCLNTHRSER iLETHRrtETSERAL ACLUVAL ALACLULEU 
AC AT AAATTCCACTCATCCAAACCAAACTACT ATCACC ATCACTCCAC ACCT CCCACAAC 

• • • 

TYRARCLEUCLULEUCLYASPTYRLYSLEUVALCLU1LETHRPR0ILECLYUUALAPR0 

TCTATCCATTCCAATTGCCACATTATAAATTACTACAAATCACTCCAATTCCCTTCCCCC 

7600 

THRASNVALLYSARCT YRTHRT HRCL YCL YTHR SERARCA SNLY SARGGL JVAUPHE V AL 
CC AC AAATGTC A ACAGCT AC ACT ACTCCTCCC ACCT C A AC A A AT AAAACACCCCTCTTTC 

tE UGLYPHELEUCLYPHELEUALATHRALAGLY5ER ALAHETCL YALAALASERLEUTHR 

TGCTACGGTTCTTCCCTT TTCTCCC A ACCGCACGTTC TGCAATGGGCCCGCCCTCCTTGA 

77 00 . • • 

VALTHRALAGLNSERARGTHRLEULEUALAGLYILEVALGLNGLNGLNCLNCLNLEULEU 

CCCTGACCGCTC AGTCCCCG ACTTTATTGGCTGGCATACTGCAGCAAC AGCA ACAGCTGT 

ASPVAtVALL YSARGGLNGLNGLULEULEUARGLEUTHRV ALTR PCLY THRLYSA5 NLEU 
TGCACGTGGTCA AGAGAC AACA AGAATTGTTGCCACTG ACCGTCTGCGGAAC AAAGAACC 

GLNTHRARGV ALSERALA ILE GUULYS WrLEULYSASPGCNAUAGLNLEUASNALATRP 
TCCACACT AGGGTCTCTGCC ATCGAGAAGTACTTAAAGCACC ACGCGCAGCT AAATCCTT 

7900 

CLYC Y5ALAP HEAR GGLNYALCYSM 1 STHRTHRVAL PR OTRP PROA SN ALA SE RLE UTHR 
GGGGATCTCCCTTTAGAC AAGTCTGTCACACT ACTGTACC ATCCCCAAATGCAAGTCTAA 

PROASPTRPASNASNGLUTHRTRPGLNGLUTRPGLUARGLYSYALASPPHELEUGLUALA 
CACC AGATTGGAAC AATG AG ACTTGGCA AGAGTGGGAGCGGA AGGTTGACTTCTTGGAGG 

• 8000 ♦ • • • 
AS N I LETHRALALEULEUGLUCLUALAGLN I LEGLNGLNGLUL YSASNHETTYRGLUL EU 

CAAATATAACGGCCCTCCTACAAGAGGC ACA AATTCA ACAAG AGAAGAACATGTATGAAT 

«ioo 

GLNLYSLEUASNSERTRPASPVALPHECLYASNTRPPMEA5PLEUTHRSERTRPJLELYS 
TACAAAAGTT GAATAGCT GGGATGTCTTTGGC AATTGCTTTGACCTTACTTCTTGCAT AA 

TYRILEGLNTVRCLYILETYRILE ILEVALCLYVAL ILELEULEUARGILE VAL IL ET YR 
AGTATATACAATATGGAATTTATATAATTGT AGGAGTAATACTCTTAAGAATAGTGATCT 

• • # 6200 • • 
ILEYALGLNflETLEUALAARGLEUARGGLNCLYTYRARGPROVALPHESERSERPROPRO 

ATAT AGTACA AATGCT AG CT AGGTTAAGACAGGGGTATAGGCCAGTGTTCTCTTCCCC AC 

" TAT2ARGPROILEPROASNARG1LEARCLEUCY$GLNPROLYSLYSALA 
ART2VAL AS PPROTYRPROTHRGLYSERGL YSERALAASNGLNARGARGGLN 
SERTYRPMEGLM##THRHI$TMRGLNGLNASPPR0ALALEOPR0TMRLY$GtUGLYLYS 
CCTCTTATTTCC AGTAGACCCAT ACCCAACAGCATCCGGCTCTGCCAACCAAAGAAGGCA 

8300 • • • 

LY$LY$CLUTHRVALCLUALAALAYALALATMRALAPROGLYLEUGLYARG#TAT(fin) 
LYSARGARGARGTRPARGCLNARGTRPCLNGLNtEULEUALALEUALAASPARCILETYR 
LYSCLYASPGLYCLYCLY$ERGLVCLYASN$ERSERTRPPR0TRPGLNIIEGLUTYR1LE 
AAA AACGAGACGGTGG AGGC AGCCGTCGCAAC AGCTCCTGGCCTTGCCAGAT AGAATATA 

6A00 

(f <o.lft-sulte f> 
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^C»(.HEP(lO»5P»'«OPR0THR45fTMRPR0LfU**' , >-ew«».*ILfCtt*CLMt.rOCLN»1>) 

"?SPHCUOaE«CCLNLFU1Lt«CLE U L£UTHRT B PLEUP 7 ES «»*«!*"«! H ' 
TTC»TIICCTC»TCCCCCMCTC*T*CCCCTCTtC*CTTCCC»»TK»CC»*CT6C»C»* 

LEU*L»ILECLUSERILEPROASPPROPROTHRA$N!LEPR0CLU»L»LEUCrS*SPLfU 
LE ULEUSERARGALAT YRCL N I LELE UGL NPROILE PHE GLNAR CLEUSE J'.J T)?!I 

B500 

F HETGLYCLTALA 

ACCcIcAATTCCCACAACTCCTCACCCTTCAACTCACCTACCTACAATATCCCTCCACCT 

ILESERLYsCySARGSERLYSPROPROGIUILECYSASPARGASPSERCYSGLYARCVAL 
.McrruriuiLAVALCLNALAALAARCASPLEOARCCLNARCLEULEUARCALAARCCLY 



8600 ■ • 

CL YARCA$NTYRCLYARGLEUPHELY$GLYVALGLUASPGLY5ER$ERGLNSERLEUGLY 

"^"yIlEUT^ 

CGCACAAMTATCGCACCCTCTTCAAACCCCTCCAACATCCATCCTCCCAATCCCTACCA 
CLT^yASPLr5CLYLEUSER5ERLCUSERCYSCLUCLVCLNLY5TYRASNCLNCLVCLU 

ILEARCCLNCLYLEUCLULEUTHRLEULEUt ^......^Mwirrfiri* 

CCAT TAG ACA AGGGCTTGAGCTCACTCTCTTGTGAGCGCC A AAAATACAATC AGGGAGAA 

• • • * • * 

TYRrt6TASNTHRPROTRPARGASNPROALAGLUGLUARGLYSLYSLEUPROTYRARGLY5 

T ACA TGAATACTCC ATGGAGAAACCC AGCTGAAG AG AGGAAAAAATTACC AT ACAGAAAA 
m . 8800 • • 

CtNASNtLEASPASPILEASPOLUCLUASPASPASPLEUVALCLY^ 
C A AA ATAT ACATGATATAGATG A6GA AGATGATC ACTTGGT AGCGATACC AGTTGAGGCC 

• • # * 

ARGVALPROLEUARGTHRHETSERTYRLYSLEUALA J^J^t *¥r$r TrirTTTATAAAA 
AGAGTTCCCCT AAG AACA ATGACTTACAAATTGGCA ATACATATGTCTCATTTTATAAAA 

« 6900 • • * * 

CLULYSCLYGLYLEUCLUGLYILETYRTYRSERALAARCARGM1SARG1LELEUASM 

GAAAAGGGGGGACTGGAAGGGATTTATTACAG'f GCA AGAAG ACATAGAATCTTAGACATA 

TYRLEUGLULYSClUGLUCLYlLC tLEPROASPTRPGLN 3 LEHISSERGLYPROGLYILE 
TACTTAGAAAAGGAAG AAGGCATCATACCAG ATTGGCAG ATAC ACTCCCC ACC ACGAATT 

• • • • - 
ARGT YRlEULYSrtETPrt CLYTRPCEUTRPLYSLEUIIEPROV ALASNYALSERA5PGLU 

AG AT ACCTAAAGATGTTTCGCTGGCTATGGA AATT AATCCCTGTAAATC1 ATCACATCAO 

• . # 9100 ♦ ♦ 
ALAGLNGLUASPGLUGLUHI STYRLEWALH t $PROALAGLNTHRSERGLNTRP AS PASP 
CCACAGGACCATGAGCAGCATTATTTAGTGCACCCACCTCAAACTTCCCAGTGGGATCAC 

• • • • * * 
pROTRPGLYGtUVALLEUAL ATRPLYSPHE ASPPROTHRLEUALATYRTHRT YRCLUALA 

CCTTGGCGAGAGGTTCTACCATCGAA6TTTG ATCC AACTCT AGCCT ACACTTATCACGCA 

, 9200 • • • • 

TYRILE ARGTYRPROCLUCLUPHECU YSERLYSSERGLYLEUSERGLULYS^ 
TAT ATT AG AT ACCCAGAAGAGTTTGGAAGCA AGTCAGGCCTGTCAGAGAAAG AGGTTAAA 

ARGARGLEUALAALAARGCLYLEULEUGLUHETALAASPARCLYSGLUTHRSER 
AGAAGGCTACCCGCAAGAGGCCTTCTTGAAATGGCTGACAGGAAGGAAACTAGCTCACAC 

• * * 

AGCAGGG ACTTTCCACAAGGCGATGTCATCCGGAGGT ACTGGGGACGAGCCGGTTCGGAA 

• 9*00 

CACCCACTTTCTTGATGT ATAAATATCACTGC ATTTCGCTCTGTATTC AGTCGCTCTGCG 

• • • • ■ * 

CAGAGGCTGCCAGATTGAGCCCTGGGAGGTTCTCTCC AGC ACT AGCAGG TAG AGCCT GGG 

• 9500 • • • • 
TGTTCCCTGCT AGACTCTCACC AGCACTTGCCCCGTGCT GGGCAGAGTGGCTCC ACGCTT 

(fig. IB- suite 7) 
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FIG . 1C 

sequence LTR 
CIVET 
vers us 
HIV- 2 ROD 



X 8960 8970 8980 8990 9000 9010 

TGGAAGGG ATTT ATT AC AGTGCAAG AAG ACATAGAATCTTAGAC ATAT ACTT AGAAA AGG 

• ••••••••••• ••••«•« * ■••■•*•«♦•«••••• 

*•■••••••« • •••••••> •■*••*«»**• « «••■*••••».*•••# 

TCGAACCC ATCT TTTACACTOAAACAAGACATAAAA TCTTAAATATATACTTACAAAAGC 

X 8950 8960 6970 8980 8<fco 

9020 9030 9040 9050 9060 

AAGAACGCATCATACCAGATTGGCAGATACACTCCCGA— CC AGGAATT AGATACCT AA 
::::::: :: :t :::::::::::: : :::::: : :: 

AAGAAGGGATAATTGCAGATTGGCAGAACTACACTCATGGCCC 4GG act A AG AT AC CCA a 
9010 9020 9030 9040 9050 

9080 9090 9100 9110 9120 

AGATGTTTGGCTGCCTATGGAAATTAATCCCTGTAAATGTATCAGATGAGGCACAGGAGG 

: : ::::: :::::::::: z :x t x : ::: :::: :: i :: i :::: 
TGTTCTTTGGGTGGCTATGGAAGCTAGTACCAGTAGATGTCCCACAAGAACGGGAGGACA 
9070 9060 9090 9100 9110 

9140 9150 9160 9170 9180 

ATCACGAGCATTATTTACTGCACCCAGCTCAAACTTCCCAGTGGGATCACCCTTGGGGAG 
m: *s s sssss :: sssss sssss t ::: x: s 

CTGAGACTCACTGCTTAGTACATCCAGCACAAACAAGCAAGTTTGATGACCCGCATGGGG 
9130 9140 9150 9160 9170 

9200 9210 9220 9230 9240 

AGGTTCTAGCATGCAAGTTTCATCCAACTCTAGCCTACACTTATCACGCATATATTAGAT 
st its* st: ttttssssss ts ss ss s ::: sssss : :::: : s 
AGACACTACTCTCGGAGTTTCATCCCTTGCTGGCTTATAGTTACGACCCTTTTATTCGGT 
9190 9200 9210 9220 9230 

9260 9270 9280 9290 9300 

acccagaagagtttcgaaccaagtcagccctctcagagaaagacgttaaaagaaggctag 

stsssi: ss tssss sssssssssssss sssss ::::: ss s: ss 

acccagaggaatttgggcacaagtcagccctgccagaccaagactgcaaggccacactga 

9250 9260 9270 9260 9290 

9320 9330 9340 9350 

ccccaacacgccttcttgaaatggct-gacaggaagcaaact 

ssisitxt s 8 s ssssssss s 

aagcaagagcaataccatttagttaaagacagcaacacctatacttgctcaggccacgaa 

9310 9320 9330 9340 9350 



FIG. 1C 
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9360 9370 9380 9390 

AGCTG AG AC AGC AGGGACTTTCC AC A AGGGGATGTC ATG— GGG A 

••••••••• : s : ; s ; • t j s ! 

GTAACTAACAGAAACAGCTGAGACTGCAGGGACT TTCC AGAAGGGGC TGT AACC A AGGGA 
9370 9380 9390 9400 9410 

9400 9410 9420 9430 9440 9450 

GOT ACTGGGGAGGAGCCGGTTGGGAAC ACCCACTTTCTTGATGTATAAATATC ACTGCAT 

; : : : ::::::::: : : : :::::: : : : j : : ........... . . . 

GGG AC ATGGCAGGAGCTGGTGGGGAACGCCCTC ATATTCTCTGTATAAAT AT ACCCGCT A 
9430 9440 9450 9460 9470 

XX 10 20 30 40 

TTCCCTCTGTA— TTCTGCAACCGATTTATTACAGTGCAACAAGACATACAATCTTAGAC 
: s . ; . . s . . . - . . : . : : : 

GCTTGCATTGTACTTCTGC.AACGGATGTT7TACAGTGAAAGAAGACATAAAATCTTAAAT 
9«90 XX 10 20 30 40 

50 60 70 60 90 

ATATACTTAGAAAACGAAGAAGGCATCATACCAGATTGGCAGATACACTCCGGA CCA 

x:::: t:::::: :;; :• :2 itstius:::: :: : • •: 

ATATACTTAGAAAAGGAAGAAGCGATAATTGCAGATTGGCAG AACTACACTCATGGGCC A 
50 60 70 80 90 100 

HO 120 130 140 150 

CCAATTAGATACCTAAAGATGTTTCGCTCGCTATGCAAATTAATCCCTGTAAATGTATCA 

2:: : ::;sx:j :s ; : 111:1 : :: ::: : . s: 2J 

GGAGTAAGATACCCAATCTTCTTTGGGTGGCTATCG AAGCT ACT ACC AGTAGATGTCCC A 
110 120 130 140 150 160 

170 lao 190 200 210 

GATCAGGCACAGGAGGATGACGAGCATTATTTAGTGCACCCAGCTCAAACTTCCCAGTGG 

• J: * Siti = * is s ::::r ::::: ::::: : ::: 

CAAGAAGGGGAGGACACTGAGACTC ACTGCTTAGTACATCCAGCACAAACA AGCAAGTTT 
I 70 1«0 190 200 210 220 

230 240 250 260 270 

GATG ACCCTTGGGGACAGGTTCT AC CATGGAAGTTTGATCC AACTCTAGCCTACACTTAT 
sissixsi 1 i ... :::: Jx , ISSJ:J:SS1 s . Js f rsj 

C ATG ACCCGC A TG GGG AC AC ACT AG TCTGGGAGTTTGATCCCTTGCTCGCTTATACTTAC 
230 2*0 250 260 270 280 

290 300 310 

GAGGCATATATTAGAT ACCCAGAAGAGTTTGGAAGCA 

una : ttxi s 

GAGGCTTTTATTCCG 
290 



(f Ig.lC-sutte 1) 
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( HIV-2.P 
FIG . 2 ' versus 



i env4 
^9 « *5 — fc *E ^ 

y;:v2 !i:;;:qLL;A illa-saclv ^^ v w ?v cv?t-.:::::ati 



KIVl HHVUEKYQKl V&WGUKVJGTK LLCIUUCSA TEKLWTVYY GVPVWKEATT 



60 70 60 env5 90 100 

K1V2 P L T C A Ti R K R - -DT MG TIOCLPD SDD YOTI TL- H VT EAFDAl'N N TV 

* * * * * * * Ir * * * * ****** * • 

KIVl TLFCA SDAKA YD7EVHW VWA THACVPTDPN PQEVVLVKVT ENF SM1/KNDM 



110 J* 120 env6 130 )40 130 

i!2V2 TEQA1EDVVM t F ITS j;rj>,C.y K LTPLCVAKKt C SSTESSTCK KTTSKSTSTT 

** ** * I vttf «*t«ltt • * * * * • 

HIVJ VEQMHEDI 1 S LWDQSLKPCV KLTPLCVSLK CTDL CIS ATNTHSSNTN 



160 170 ISO 1 90 200 

EIV2 — TTTPTDQE QE15EDTPCA RADMCSCLCt SETXNCQFNM TGLERDKKKQ 

* #** 

HIV1 S5SCEHMMEK CEIK IICSFKIS TSIRCKVQKE YAFFYKLDII 



210 220 230 env 7 2A0 | 250 

HIV2 Y--NET-VY5 XVVCETHKST HQTOCYH WHC HTSVITESCD KH YU1XA T RFR 

* * * ' * ****** * * 1 * 

HIV1 P1DNDTTSYT ISC NTSVITQACP KVSFEPXPXB 



260 env8 270 280 290 300 

HIV2 TCAPPCYALL RC-HDT -KYS GFAPNCSKVV ASTCTRMMET QTSTWF -CFK 

• *** ******* * * * "** ** * 

HXV1 YCAPAGFAIL KCNHKTFNGI CP CTKVS TVQCTHCIRP VVSTQLLL-H 



310 320 330 340 330 

KIV2 CTRAE H RTYIYWHCRD K-R7XX-SLX KYYKLSLKCK KPCNKTVKQX 

* ** * * * *** *• ******* 

BIV1 CSLAEEEVVX RSA2IFT D KAKTIXVQLH QS VE--IMCT RPKNMTRRSI 



360 370 finv9 380 3 90 400 

HIV2 MLMS— GHVr KSKYQPI NKR PROAKCVFKC -KUKP AKOEV K ETLASCHPRY 

• * * *** * w* * * 

KIVl RlQRCPCuAF VTICKICU— MRQAHCSISR AKWIIAT L *(jl ASKLREQ 



TIG. 2 
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UD J 420 CnVl ° 430 440 450 

K1V2 RGTNDTKN I S TAAPCKCSPP EVAYKVTVCR CgrtYCKKTW EHi" WX 

^ * * * « *« * v* *** *** * * * 

BI V1 FCnWKT — II FKQSS-GGDP EIVTHSFNCC CEFFYCKSTQ iFNSTWFNST 



460 I 470 envll 430 490 500 

t H KT RfiNYAPCH IKOIINTWKK VGRKVY^ PPJt ECEL5CNSTV 

* 7* *** «« * *• * ** • • 

VSTECSNKTE CSDTITLPCR 1KQF INMWQE VGKAMYAPPI SCQIRCSSK I 



510 520 530 540 550 

PTV2 TSIIAKIDWQ KNNQTH1TFS AEVAELYRL ELCDYKLV EITPIGFAPT 

* * *** * ******** *** 

BIV1 TCLLLTRDGC KNNNCSE IFR PGCCDHRDNV RSEIYKYKVV KIEPLGVAPT 



env3 560 570 580 590 600 

HIV2 KEKRYSSAH C RBTRCVFVLC — FLGFLATA GSAHCAAS — LTVSAQSRTL 

« +* « * * « ***** • ** *** * *** * * * 
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HIVI IVCCSGKLIC TTAVrVKASl SKKSIEQ I17U 2SHTVXEVDSS IHWYTSLZUS 



Jr 710 env2 720 730 740 750 

HIV2-- SLEQAOIQOE KWMTELOKLW SV DIFGKUFP LTSWVKYIQY CVLIIVAVIA 

* * *** ** •* « *** * • *# « 

HIVl LIEESQNQQE XHEQELLELD KWASLVNWFB 1TNVLVYIKI FIMIVCCLVC 
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290 300 310 320 330 340 
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330 340 350 360 370 360 
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